La asimetría en las estadísticas: fórmula y ejemplos

Rodrigo Ricardo Publicado el 17 julio, 2024 9 minutos y 43 segundos de lectura

¿Qué es la asimetría?

Una distribución normal es una curva de campana con una forma simétrica perfecta. Si la curva se vuelve asimétrica o se extiende hacia la derecha o hacia la izquierda, se denomina curva de campana sesgada . ¿Qué es la asimetría? La asimetría en las estadísticas representa un desequilibrio de una distribución normal. Esto significa que el conjunto de datos tiene valores atípicos o extremos en su distribución.

Al determinar cómo calcular la asimetría y analizar las tendencias centrales de la distribución de datos, se utilizan las siguientes medidas:

  • Media: El promedio de los números en una distribución de datos.
  • Mediana: el número central en una distribución de datos cuando el conjunto de datos está en una matriz organizada en orden creciente o decreciente.
  • Moda: el número que aparece con mayor frecuencia en la distribución de datos, el punto más alto en la curva de campana.

La media, la mediana y la moda comparten el mismo valor en una distribución normal. ¿Por qué? La curva de campana es perfecta, con el punto medio como la parte superior de la curva e igual al promedio porque el gráfico es simétrico.

Cuando la distribución de datos está sesgada, hay valores atípicos a ambos lados del gráfico. Un gráfico con sesgo negativo tendrá valores atípicos en el lado izquierdo del gráfico, y el gráfico con sesgo positivo tendrá valores atípicos en el lado derecho del gráfico. Por lo tanto, las medidas de tendencia central ya no estarán en el medio del gráfico de campana.

Curvas de campana sesgadas

La distribución normal tiene la forma de una curva de campana. Tiene asimetría cero y tiene un gráfico equilibrado y simétrico. Los valores de los datos de la media, la mediana y la moda son iguales y se pueden encontrar en el centro del gráfico. La asimetría negativa lleva el promedio o la media del conjunto de datos hacia la izquierda, y la moda estará en el punto más alto del lado derecho, con la mediana aún en la parte central del gráfico. Por otro lado, la asimetría positiva hace lo contrario. Mueve la media hacia el lado derecho de la mediana y la moda estará en el punto más alto del lado izquierdo.

Estadísticas de definición sesgadas

Fórmula de asimetría

La asimetría se puede determinar usando una fórmula: {eq}Asimetría = \frac{3(Media-Mediana)}{Desviación estándar} {/eq}

Dónde:

  • La media es el promedio del conjunto de datos, determinado al dividir la suma de todos los valores en una distribución de datos por el número total de valores de datos. En una distribución de valores de datos {eq}n {/eq}, la fórmula para la media es: {eq}\frac{\sum_{x_{i}=1}^{n}}{n} {/eq}
  • La mediana es el número del medio en el conjunto de datos. En el caso de tener dos números, se toma la media de los dos números del medio. Es decir, suma los dos números y divídelos por dos.
  • La desviación estándar es la tercera variable necesaria en la fórmula para la asimetría. Este número muestra cómo se distribuyen los datos en comparación con la media. Esta es la fórmula para obtener la desviación estándar de un conjunto de datos con {eq}n {/eq} número de datos y una media de {eq}\bar{x} {/eq}.

Desviación estándar de la población:

{eq}\sigma=\sqrt{\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+…+ (x_{n}-\bar{x})^{2}}{n}} {/eq}

Desviación estándar de la muestra:

{eq}s=\sqrt{\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+…+( x_{n}-\bar{x})^{2}}{n-1}} {/eq}

Se debe tener cuidado al obtener la desviación estándar porque la desviación estándar es diferente de la desviación estándar de una muestra. Si el problema describe una situación relacionada con una muestra o un subconjunto de un grupo, entonces se debe usar la desviación estándar de la muestra, s .

Cómo transformar datos sesgados

El gráfico de datos sesgados se puede transformar en una forma de curva de campana equilibrada y simétrica cambiando los datos utilizando varios métodos. La selección de qué método utilizar depende de las características del conjunto de datos y su comportamiento. Estas son las formas más comunes de corregir la asimetría de la distribución de datos:

  • Transformaciones de registro
  • Transformaciones de poder
  • Transformaciones exponenciales

La transformación logarítmica es la más utilizada y garantiza un buen resultado, cercano a una distribución normal.

Para transformar los datos sesgados en valores logarítmicos, obtenga el logaritmo de cada número en la distribución. Es necesario realizar algunos ajustes si los datos tienen valores cero o negativos (el registro de cero y los números negativos no están definidos y no existen).

Para aquellos con valores de datos cero, se crea una constante para que el valor del número sea al menos un 1. Un número arbitrario agregado al conjunto de datos transformará los valores de los datos en al menos uno para que se pueda realizar un cálculo logarítmico.

Para aquellos con valores negativos (normalmente presentes en una distribución de datos sesgada a la izquierda), los datos deben reflejarse primero antes de realizar una transformación de registro. Para reflejar los datos, es necesario identificar el valor de datos más alto. Entonces todos los datos se reflejarán a sus nuevos valores siguiendo la fórmula:

Valor de datos más alto + 1 – Valor de datos

Reemplazar todos los valores en el conjunto de datos con esta fórmula eliminará los números negativos.

La demostración y el trabajo de estas transformaciones se muestran mejor usando una lista de muestra: { 1, 2, 4, 5, 9, 25, 1, 3, 4, 1}

Para este conjunto de datos, la mediana se obtiene obteniendo el número del medio organizando la lista de muestra en orden.

Conjunto de datos = {1, 1, 1, 2, 3, 4, 4, 5, 9, 25}. Los números del medio son 3 y 4. Entonces mediana = 3.5

La media se calcula sumando todos los números y luego dividiendo por 10: 55/10=5.5

La desviación estándar de la muestra es 7.276.

Con esta información, la asimetría se calcula siguiendo la fórmula: 3(media – mediana)/desviación estándar.

Asimetría = 3(5.5-3.5)/7.276 = +0.82

Este es un sesgo positivo moderado.

Si transformamos los valores de los datos en valores log10, obtenemos los siguientes resultados:

  • Media = 1.159
  • Mediana = 1.242
  • Desviación Estándar = 1.048

Esto da una asimetría de -0,237, que está más cerca de cero.

Aunque no es perfectamente cero como queremos que sea, el valor es más cercano y menos sesgado que antes de la transformación.

Ejemplos de asimetría

Los siguientes ejemplos de asimetría demuestran asimetría cero, asimetría positiva y asimetría negativa.

Ejemplo 1: asimetría cero

Considere la siguiente lista de datos para los días de ausencia en una clase de 10 estudiantes:

Días de ausencias = { 1, 2, 2, 3, 3, 3, 3,4, 4, 5}

La mediana es el número del medio que es 3.

La media es la suma de todos los números dividida por 10:

1 + 2 + 2 + 3 + 3 + 3 + 3 + 4 + 4 + 5 = 30

Media = 30/10 = 3

Desviación estándar de la muestra = {eq}s=\sqrt{\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+. ..+(x_{n}-\bar{x})^{2}}{n-1}} {/eq} = 1,155

Asimetría = 3 (Media – Mediana)/Desviación estándar = 3 (3 – 3)/1,155 = 0

Este ejemplo de sesgo tiene cero sesgo, lo que significa que tiene simetría y tiene la forma de una curva de campana.

Diagrama que muestra la asimetría cero de un conjunto de datos de muestra

Ejemplo 2: asimetría negativa

Los siguientes son los puntajes de las pruebas de 10 estudiantes en una clase de trigonometría:

15, 25, 25, 37, 53, 55, 55, 60 62, 70

En este conjunto de datos de 10, la mediana es (53 + 55)/2 = 54

El valor medio es (suma de todos los datos / 10) = 457/10 = 45,7

Desviación estándar de la muestra = 18,74

Asimetría = 3(45,7 – 54)/18,74 = -1,33

Creando un histograma para estos datos:

Histograma del conjunto de datos del ejemplo 2 que muestra asimetría negativa

Ejemplo 3: asimetría positiva

Alex y Mariah tomaron su prueba de maquillaje al día siguiente y obtuvieron 89 y 95, respectivamente. El maestro también dejó caer los cuatro puntajes más bajos y decidió darles una segunda oportunidad. ¿Cuál es el sesgo del nuevo conjunto de datos que comprende los puntajes de las pruebas de Alex, Mariah y seis de sus compañeros de clase?

Los siguientes son los puntajes de las pruebas de los ocho estudiantes, incluidos Mariah y Alex:

53, 55, 55, 60, 62, 70, 89, 95

La mediana de este conjunto de datos es (60+62)/2 = 61

La media es igual a (suma de todas las puntuaciones)/8 = 67,38

La desviación estándar de la muestra = 16.19

Asimetría = 3(67,38 – 61)/ 16,19 = 1,18

Aquí vemos un conjunto positivamente sesgado de distribución de datos.

Mostrando el histograma de los datos positivamente sesgados del Ejemplo 3

Importancia de la asimetría en las estadísticas

La asimetría se utiliza para detectar valores atípicos en un conjunto de datos. Los valores atípicos deben eliminarse cuando se requiere un buen análisis en un conjunto de datos. Los valores atípicos también son indicadores de datos incorrectos y puede valer la pena investigarlos. Podrían ser errores en las entradas u ocurrencias inusuales durante la recopilación de datos.

La asimetría también muestra la tendencia del conjunto de datos. Esta información es esencial en finanzas para ayudar a los inversores a minimizar los riesgos en las inversiones.

Resumen de la lección

Una distribución normal crea una curva de campana simétrica donde la media, la mediana y la moda de un conjunto de datos comparten el mismo valor en el medio del gráfico. Una curva de campana sesgada es donde el gráfico ya no es simétrico y se estrecha hacia ambos lados. La asimetría negativa de la distribución de datos es donde la cola se estrecha hacia la izquierda, y hay asimetría positivaen la distribución de datos donde la cola se encuentra en el lado derecho del gráfico. Para ambos gráficos, la media, la mediana y la moda tienen valores diferentes. La media estará en el lado izquierdo de la moda con un sesgo positivo y, por el contrario, estará en el lado derecho de la mediana con un sesgo negativo. El sesgo para una curva de campana simétrica es cero, negativo para el gráfico sesgado a la izquierda y positivo para la curva sesgada a la derecha.

Hay varias formas de calcular la asimetría. La fórmula básica de asimetría es 3 (media-mediana)/desviación estándar. La desviación estándar se basa en la dispersión de los valores de los datos en comparación con el valor medio. Tenga en cuenta que hay dos tipos de desviaciones estándar: una para la población y otra para la muestra. La fórmula que se utilizará para resolver la asimetría depende del conjunto de datos proporcionado para un problema en particular. Para conjuntos de muestras pequeñas, la desviación estándar utilizada es la desviación estándar de la muestra. Para corregir datos sesgados, la transformación se puede realizar creando transformaciones de registro en los valores de los datos.

La asimetría, aunque la mayoría de las veces es causada por valores atípicos en el conjunto de datos, puede ser útil como predictor de tendencias en marketing y finanzas. También es un indicador de valores atípicos que pueden tener retroalimentación positiva y negativa sobre la forma en que se recopilaron los datos.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador