Medidas dispersas
Cuando muestrea datos, es útil saber qué tan dispersables o esparcidas son las mediciones. Por ejemplo, suponga que ha estado rastreando sus gastos de almuerzo y ha gastado, en promedio, $ 10 por día. Probablemente le interese saber si gastó constantemente cerca de esa cantidad, o si tuvo algunos gastos muy grandes que sesgaron el promedio general.
La dispersión de datos que se distribuye normalmente, como se describe mediante una curva de campana, se puede describir utilizando la regla 68-95-99.7, que establece que el 68% de los datos se ajusta a una desviación estándar de la media, el 95% a 2 desviaciones y 99,7% dentro de 3 desviaciones estándar. Pero si no lo sabe, o no espera que sus datos se distribuyan normalmente, ¿se puede hacer la misma afirmación?
Desigualdad de Chebyshev
La desigualdad de Chebyshev , también conocida como teorema de Chebyshev, hace una declaración bastante amplia pero útil sobre la dispersión de datos para casi cualquier distribución de datos. Este teorema establece que no más de 1 / k 2 de los valores de la distribución estarán a más de k desviaciones estándar de la media. Visto de otra manera, 1 – (1 / k 2 ) de los valores de la distribución estarán dentro de k desviaciones estándar de la media.
Si bien esta ecuación a menudo da como resultado un rango relativamente amplio de valores, es útil porque solo requiere conocimiento de la desviación estándar y media, las cuales se calculan fácilmente a partir de cualquier muestra o población de datos. El teorema proporciona lo que podría llamarse una mirada del peor de los casos a la dispersión de datos dentro de cualquier distribución de datos.
Fórmula de desigualdad de Chebyshev
Para investigar este teorema, primero comparemos los cálculos con la regla empírica 68-95-99.7 para distribuciones normales. Dado que esos números representan los datos que se encuentran dentro de los límites, usamos la desigualdad de Chebyshev para los datos dentro de los límites:
Grupo Acilo y del Grupo Carbonilo: Fórmula, estructura y compuestos
Probabilidad = 1 – (1 / k 2 )
Matemáticamente, los valores menores o iguales a 1 no son válidos para este cálculo. Sin embargo, introducir los valores de k para 2 y 3 es relativamente sencillo:
P ( k = 2) : 1 – (1/2 2 ) = 1 – 0,25 = 0,75 (75%)
P ( k = 3) : 1 – (1/3 2 ) = 1 – 0,11 = 0,89 (89%)
En estos casos, la desigualdad de Chebyshev establece que al menos el 75% de los datos estarán dentro de 2 desviaciones estándar de la media, y se espera que el 89% de los datos estén dentro de 3 desviaciones estándar de la media. Esto es menos preciso que los valores del 95% y 99,7% que se pueden utilizar para una distribución normal conocida. Sin embargo, la desigualdad de Chebyshev es cierta para todas las distribuciones de datos, no solo para una distribución normal.
Un ejemplo financiero
Comparemos los rendimientos del mercado de valores Dow Jones y NASDAQ durante los últimos 40 años como ejemplo. En general, el mercado NASDAQ enumera acciones más pequeñas y supuestamente más volátiles. Vemos que esto es cierto al observar las medidas estadísticas básicas de los últimos 40 años:
- Dow Jones: promedio = 8,77%; Desviación estándar = 14,43%
- NASDAQ: Promedio = 13,40%; Desviación estándar = 24,80%
Utilizando la desigualdad de Chebyshev, podemos hacer una declaración adicional sobre la probabilidad de muestrear datos cerca o lejos de los promedios. Por ejemplo, del teorema sabemos que al menos el 75% de los datos estarán dentro de 2 desviaciones estándar del promedio. El rango asociado del límite del 75% se ve así:
- Dow Jones: -19,66% a 37,64%
- NASDAQ: -35,42% a 62,85%
Estos rangos cuantifican la probabilidad mínima de encontrar valores que se encuentran dentro de la distancia especificada del valor promedio. El NASDAQ tiene un rendimiento promedio más alto, pero en cualquier año el riesgo de encontrar un rendimiento significativamente más bajo o más alto es mucho más amplio para el mercado NASDAQ que para el mercado Dow Jones.
Un ejemplo de control de calidad
También podemos calcular, dado un rango requerido de valores, qué porcentaje de nuestros datos debería estar dentro de esos límites. Por ejemplo, suponga que estamos fabricando aparatos que pesan, en promedio, 150 gramos. Los pesos individuales son algo aleatorios debido a las impurezas en nuestras materias primas, pero oscilan entre 146,4 y 153,6 gramos, con una desviación estándar calculada de 1,188 gramos. Solo podemos mantener widgets que pesen entre 147 y 153 gramos. Usando la desigualdad de Chebyshev, ¿qué porcentaje mínimo de widgets debería estar en ese rango?
En este caso, derivamos el valor k asociado, que se expresa en desviaciones estándar, y lo conectamos a nuestra fórmula. Tanto el límite superior como el inferior devolverán los mismos resultados. Usando el límite superior:
Inclusión educativa como base del desarrollo social
k = (153 – 150) / 1,188 = 3 / 1,188 = 2,526
P ( k = 2.526) : 1 – (1 / 2.526 2 ) = 1 – 0.156 = 0.843 (84.3%)
Sin saber nada más sobre nuestros datos que la media y la desviación estándar, podemos afirmar con confianza que al menos el 84,3% de nuestros widgets caerán en el rango requerido.
Resumen de la lección
Muy bien, tomemos un momento para revisar lo que hemos aprendido. La desigualdad de Chebyshev , también conocida como teorema de Chebyshev, es una herramienta estadística que mide la dispersión en una población de datos que establece que no más de 1 / k 2 de los valores de la distribución estarán a más de k desviaciones estándar de la media. Se puede utilizar con cualquier distribución de datos y se basa solo en la desviación estándar y media de los datos.
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...
