Distribución normal: definición, propiedades, características y ejemplo

Publicado el 15 septiembre, 2020 por Rodrigo Ricardo

La distribución normal

Jane está a punto de realizar un SAT. La escuela para la que está solicitando da prioridad a los candidatos cuyos puntajes SAT se encuentran en el percentil 84 o superior. Jane se pregunta qué debería obtener en la prueba para lograrlo.

Sam está diseñando un coche eléctrico. Para diseñarlo correctamente, necesita saber cuánto durará el 95% de las baterías de iones de litio.

¿Qué tienen estas preguntas en común? Pueden resolverse con un mayor conocimiento de la distribución normal. La distribución normal es una distribución continua de datos que tiene la forma de una curva de campana simétrica. También se conoce como Bell Curve. También se llama Distribución Gaussiana , en honor a Carl Gauss, quien creó una fórmula matemática para la curva.

Entonces, ¿qué tiene de especial esta curva? Muchos datos de la naturaleza tienen esta forma cuando se compilan y grafican. Por ejemplo, las alturas y pesos de hombres y mujeres tienen esta distribución. Los puntajes de las pruebas estandarizadas se distribuyen normalmente. A veces, la vida útil de las piezas o equipos fabricados forma una distribución normal.

Al compilar los datos en una tabla de frecuencias y graficarlos en un histograma, a menudo podemos ver este fenómeno. Observe que la distribución normal, o curva, tiene forma de campana y es simétrica:

curva de distribución normal

Ésta es una propiedad de la distribución normal. Otra propiedad es que ‘media = mediana = moda’. Esto se debe a que la forma de los datos es simétrica con un pico.

Y, dado que la curva es simétrica, la media, la mediana o la moda (que son todas iguales para esta distribución) dividen los datos por la mitad. De ahora en adelante, solo nos referiremos a este valor en el medio como la media:


Media mostrada en distribución normal
media mostrada en el gráfico

Sin embargo, tenga en cuenta que el símbolo Mu representa una media poblacional y la barra x representa una media muestral.

La regla empírica

Los puntos en la curva de campana que tienen la pendiente más pronunciada hacia arriba y hacia abajo (llamados puntos de inflexión) son muy importantes. Los puntos correspondientes en el eje horizontal son una desviación estándar de la media, ¡y el 68% de los datos se encuentran aquí!

¿Entonces que significa eso? (Sin juego de palabras). Bueno, suponga que las alturas de los hombres se distribuyen normalmente con una altura media o media de 68,5 pulgadas y una desviación estándar de tres pulgadas. Podemos generalizar que el 68% de los hombres miden entre 68,5 – 3 = 65,5 pulgadas y 68,5 + 3 = 71,5 pulgadas de altura. Esa es una gran generalización, pero es perfectamente cierto si los datos se distribuyen normalmente.

Mencionamos la desviación estándar. La desviación estándar es una medida de dispersión o variabilidad de los datos. Cuanto más grande sea, más dispersos estarán los datos. La desviación estándar se calcula de forma ligeramente diferente para una población en comparación con una muestra. Las fórmulas y símbolos para ambos tipos se dan a continuación:

fórmulas de desviación estándar de muestra y población

Veamos la desviación estándar de la muestra (llamada S ). Dice que S es igual a la raíz cuadrada de la suma (de cada valor menos la media (llamada barra x ) todo al cuadrado) dividido por n menos 1, que es el número de valores menos 1.

Para la población, el símbolo de desviación estándar se llama Sigma, y ​​la única diferencia en el cálculo es que restas la media de la población Mu de cada valor, y hay una división por el tamaño de la población llamada N grande .

Este cálculo puede resultar tedioso, pero muchos programas estadísticos pueden calcular fácilmente la desviación estándar. Para este video, nos referiremos a la desviación estándar como std. dev., independientemente de si estamos hablando de una muestra o de una población.

Más importante aún, la desviación estándar es una medida de propagación. Podemos pensar en los datos en términos de distancia de la media, o en términos de desviaciones estándar o marcas de graduación. Y la curva normal tiene la propiedad de que el 68% de los datos se encuentran dentro de una desviación estándar de la media.

¿Es asi? No. ¡Hay más! El 95% de los datos se encuentran dentro de dos desviaciones estándar de la media.

Por ejemplo, suponga que la vida útil de las baterías de iones de litio se distribuye normalmente con una vida útil media de 20 000 horas y una desviación estándar de 1000 horas. Podemos concluir que el 95% de estas baterías durarán entre 20.000 – (2 * 1000) = 18.000 horas y 20 + (2 * 1000) = 22.000 horas.

¿Hay otra parte de esta regla? Seguro, y dice que el 99,7% de los datos están dentro de tres desviaciones estándar de la media, lo que prácticamente captura todos los datos excepto el 0,3%. Y, como puede ver, esto significa que no quedan muchos datos en las colas de la curva:


El 99,7% de los datos está dentro de las 3 desviaciones estándar.
curva de campana que muestra datos de ejemplo de batería

Por ejemplo, si las puntuaciones del SAT se distribuyen normalmente con una puntuación media de 550 y una desviación estándar de 80 puntos, podríamos generalizar que el 99,7% de las puntuaciones del SAT están entre 550 – (3 * 80) = 310 y 550 + (3 * 80) ) = 790.

Las generalizaciones sobre el porcentaje de datos dentro de ciertas desviaciones estándar de la media se llaman regla empírica , o la regla 68-95-99.7 , y dice que para datos distribuidos normalmente, el 68% de los datos está dentro de una desviación estándar de la media, el 95% de los datos está dentro de dos desviaciones estándar de la media y el 99,7% de los datos está dentro de tres desviaciones estándar de la media.

Poniendolo todo junto

Estos porcentajes se pueden desglosar aún más. Dado que la curva es simétrica y el 68% de los datos está dentro de una desviación estándar de la media, la mitad del 68% o el 34% de los datos deben estar a la izquierda y a la derecha de la media dentro de una desviación estándar. De manera similar, el área entre una desviación estándar y dos desviaciones estándar será 95% – 68% = 27%. Sin embargo, la curva es simétrica. Y así, esto se puede reducir a la mitad para dar un 13,5% de los datos entre una desviación estándar y dos desviaciones estándar en cada lado. Y se puede hacer un cálculo similar para el área entre dos y tres desviaciones estándar de la media. Esto es 99,7 – 95 = 4,7%, luego 4,7% / 2 = 2,35% en cada lado de la curva. En el gráfico siguiente se muestra un resumen de estos porcentajes:


Porcentajes de datos dentro de la desviación estándar
porcentajes de datos en la curva de campana

Entonces, ¿cómo es esto útil? Volvamos a Jane. Quiere que su puntaje SAT esté en el percentil 84 o más. El percentil 84 es el puntaje de la prueba por debajo del 84% de los puntajes. Con una puntuación de prueba media de 550 y una desviación estándar de 80, podemos volver a dibujar el gráfico anterior como tal; y luego sumamos los porcentajes de izquierda a derecha hasta acercarnos al 84%. Podemos ver que 0,15% + 2,35% + 13,5% + 34% + 34% = 84%:


Una puntuación de 630 está en el percentil 84.
Curva de campana de datos SAT

Esto corresponde a una puntuación de 630 en la prueba. Por lo tanto, Jane necesita una puntuación de 630 en la prueba para estar en el percentil 84.

Recuerde, Sam quería saber cuánto duraban el 95% de las baterías de litio. Usando la regla 68-95-99.7, podemos ver que el 95% de estas baterías duran entre 18,000 horas y 22,000 horas:


El 95% de las baterías duran entre 18.000 y 22.000 horas.
curva de campana de duración de la batería

Tomemos un ejemplo más. Suponga que cierta empresa fabrica neumáticos con una duración media de 30.000 millas con una desviación estándar de 3.000 millas, y suponga que la distribución de estas vidas útiles es normal. Compra un neumático de esta empresa. ¿Cuál es la probabilidad de que dure más de 36,000 millas?

Hasta ahora hablábamos de porcentajes, pero los porcentajes de la curva normal también se pueden interpretar como probabilidades. Según la regla 68-95-99.7, vemos que 36,000 millas son dos desviaciones estándar o marcas de verificación por encima de la media, por lo que los porcentajes por encima de esto son 2.35% + 0.15% = 2.5%:


La probabilidad de que una llanta dure más de 36,000 millas es 2.5%.
curva de campana para datos de neumáticos

El 2.5% de estos neumáticos durará más de 36,000 millas. Entonces, la probabilidad de que una llanta aleatoria de la compañía dure más de 36,000 millas es 0.025 o 2.5%

Resumen de la lección

En este video, presentamos la distribución normal . Los datos distribuidos normalmente tienen una forma de campana simétrica cuando se grafican. La mitad de la curva representa la media, que es igual a la mediana, que es igual a la moda. Aprendimos la regla empírica o la regla del 68-95-99.7% , que establece que para los datos distribuidos normalmente, el 68% de los datos está dentro de una desviación estándar de la media, el 95% de los datos está dentro de dos desviaciones estándar de la media y el 99.7 El% de los datos está dentro de las tres desviaciones estándar de la media.

Usamos la regla empírica para encontrar los porcentajes entre valores de interés. Y la regla también se puede utilizar para determinar el percentil o rango de un determinado valor. Por ejemplo, vimos que el 95% de una determinada batería de litio duró entre 18.000 y 22.000 horas dada una vida media de 20.000 horas y una desviación estándar de 1000 horas. Otro ejemplo de su uso fue el hecho de que una puntuación de 630 en una prueba estandarizada, con una puntuación media de 550 y una desviación estándar de 80, lo coloca en el percentil 84. Y finalmente, vimos que los porcentajes en la curva normal también se pueden interpretar como probabilidades.

Los resultados del aprendizaje

Habiendo estudiado esta lección, vea si puede:

  • Dar definiciones para los términos ‘distribución normal’ y ‘regla empírica’
  • Cite las diferentes formas en que se pueden utilizar la distribución normal y la regla empírica.

Articulos relacionados