Comprensión de la variabilidad estadística

¿Quieres explorar más? 📂 Explorar Categorías 🔥 Tendencias 🎓 Cursos

Distribuciones de datos

Se le ha encargado una tarea. Su jefe le ha pedido que proporcione algunas estadísticas que describan la distribución de las edades de todos los trabajadores en dos plantas diferentes. Esto suena bastante simple, ¿verdad? Vas a las plantas, registras la edad de cada empleado y te pones a trabajar.

La primera cosa que puede hacer es calcular la media de la edad, o el promedio de cada grupo de trabajadores. También puede encontrar la mediana , que es el valor de mediana edad en su conjunto de datos. Y, finalmente, podría calcular la moda , que es la edad más común entre los trabajadores.

Estos valores son útiles para resumir los datos, pero aún no llegan a lo que quiere su jefe. Por ejemplo, si la edad media de los trabajadores en ambas plantas es de 30 años, podría pensar que ambas plantas tienen la misma distribución de edades. Pero, de hecho, ¡todavía no sabemos nada sobre la distribución por edades en ninguna de las plantas!

Lo que necesitamos es algo que realmente mida la dispersión de esas edades. En otras palabras, la propagación de esas edades entre los trabajadores de cada planta. En esta lección, analizaremos tres medidas importantes de dispersión de datos (también conocida como variabilidad) que lo ayudarán a informar a su jefe: rango, varianza y desviación estándar. ¡Empecemos!

Rango

El rango de un conjunto de datos es bastante sencillo. Es simplemente la diferencia entre los valores más grandes y más pequeños. Entonces, si en la Planta 1 los trabajadores tienen entre 25 y 65 años, entonces su rango estadístico es simplemente de 65 a 25, o 40. En la Planta 2, los trabajadores tienen un mínimo y un máximo diferentes. En este caso, el trabajador más joven tiene 18 años y el trabajador de mayor edad 52. Por lo tanto, el rango estadístico para la Planta 2 sería 52 – 18, o 34.

Tema relacionado:
Pruebas de estadística paramétrica, datos y distribución

El rango es una buena medida de la distribución total de sus datos. Sin embargo, debe tener cuidado, porque es solo una extensión general, no cuán uniformemente se dispersan los datos. Por ejemplo, el rango de edades en la Planta 1 era mayor que el rango de edades en la Planta 2. Pero si todos menos uno de los trabajadores de la Planta 1 tienen entre 25 y 35 años, entonces esa persona que tiene 65 años sesga tu rango bastante ¡poco! Solo se necesita un valor atípico como este para influir en tu rango, así que tenlo en cuenta.

Diferencia

El siguiente es la varianza. Al igual que el rango, también mide la dispersión de los datos. Pero a diferencia del rango, la varianza mide cómo se distribuyen los datos alrededor de la media. El rango solo encuentra la diferencia entre cada extremo o extremo. Sin embargo, la varianza describe la distribución de todos los puntos de datos.

El rango solo nos dijo la distribución total de los datos, no dónde caen la mayoría de los puntos de datos, y aquí es donde la variación puede ser bastante útil. Un rango muy pequeño significa solo que los dos puntos finales están cerca el uno del otro. Pero una pequeña variación significa que la mayoría de los puntos de datos están cerca de la media y, por lo tanto, entre sí. Del mismo modo, un rango grande significa que nuestros dos puntos finales están muy separados, pero una gran variación significa que nuestros datos están muy separados de la media y, nuevamente, entre sí.

Entonces, en el caso de los trabajadores de la Planta 1, esa persona de 65 años tendría un efecto mucho menor en los resultados porque la mayoría de los demás trabajadores tienen aproximadamente la misma edad. Por lo tanto, nuestra distribución estaría bastante centrada alrededor de la media porque ahí es donde caen la mayoría de los puntos de datos. Podemos ver dónde cae el valor atípico en la distribución, pero también podemos ver qué poco efecto tiene en la descripción del resto de los puntos de datos.

Desviación Estándar

Finalmente, llegamos a la medida de dispersión de datos más utilizada. Esto se denomina desviación estándar y es simplemente la raíz cuadrada de la varianza. La principal diferencia entre esto y la varianza es que los valores de varianza están al cuadrado, lo que hace que sea un poco más difícil trabajar con ellos. Si tomamos la raíz cuadrada de la varianza, obtenemos las mismas unidades que nuestros datos originales, por lo que esto hace que la desviación estándar sea más útil en términos de interpretar nuestros datos.

Tema relacionado:
Estadística Descriptiva: Concepto y ejemplos

Al igual que la varianza, la desviación estándar también nos dice qué tan cerca o lejos están nuestros datos de la media. Veríamos el mismo tipo de distribución para ambos: una desviación estándar más pequeña significa que nuestros datos están más cerca de la media y entre sí; una desviación estándar mayor significa que nuestros datos están más lejos de la media y entre sí.

Cuando hablamos de desviación estándar, a menudo nos referimos a algo llamado curva normal o simplemente normal. Esta es una curva gráfica teórica donde todos los datos están distribuidos uniformemente y la mayoría están cerca de la media. En una muestra aleatoria, esperamos, al menos estadísticamente, que la mayoría de los valores se acerquen al valor medio o verdadero de la muestra. Por supuesto, habrá algunos valores que estarán más lejos del valor real, pero cada vez menos a medida que nos alejemos de esa media, y una cantidad igual será tanto más alta como más baja que el valor real.

Curva normal

Y es en esta curva donde podemos trazar las desviaciones estándar. En una distribución normal, podemos ver cómo la mayoría de los datos se centran alrededor de la media: esperamos que el 68% de los datos caigan dentro de 1 desviación estándar, 34% por encima y 34% por debajo de la media. Vaya una desviación estándar más de la media y esperamos que el 95% de los datos caigan dentro de este rango.

¿Puedes ver cómo esta información te da una mejor idea de cuán uniformemente están distribuidos los datos, en lugar de simplemente resumir los datos? Con estas tres medidas en la mano, ahora puede informar a su jefe sobre la distribución de las edades de los trabajadores en ambas plantas. ¡Espero que obtenga un aumento por todo su arduo trabajo!

Resumen de la lección

La variabilidad estadística nos proporciona algo más que información resumida como la que podríamos obtener con la media, la mediana y la moda. Estas medidas son importantes, pero solo nos dan una idea general de lo que está sucediendo. Lo que a menudo es más útil es saber cómo se distribuyen o esparcen nuestros datos, y podemos hacerlo utilizando algunos métodos diferentes.

Tema relacionado:
Valor Atípico: Definición y ejemplos de estadística

Si simplemente queremos saber la diferencia entre los valores más grandes y más pequeños, buscaríamos el rango . Esto nos da la extensión total de nuestros datos, pero puede ser engañoso porque está fuertemente influenciado por valores atípicos.

Para ver qué tan uniformemente se distribuyen los datos, necesitamos la varianza , que mide cómo se distribuyen los datos alrededor de la media, o la desviación estándar , que es simplemente la raíz cuadrada de la varianza. La desviación estándar podría ser más útil porque está en las mismas unidades que los datos, mientras que la varianza es el cuadrado de esos valores. La pequeña varianza y la desviación estándar nos dicen que nuestros datos están cerca de la media y entre sí, mientras que una gran varianza y desviación estándar indican lo contrario.

Los resultados del aprendizaje

Al completar esta lección, debería poder:

Definir media, mediana y moda
Describe el rango, la varianza y la desviación estándar.
Explica cómo el rango, la varianza y la desviación estándar pueden ser más útiles que la media, la mediana y la moda.
Recuerda cómo usar una curva normal.

Twittear

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo Editor y fundador