Difusión de datos: definición y ejemplo
¿Qué es la difusión de datos?
Un conjunto de datos es una colección de información. Los datos pueden provenir de encuestas, mediciones, observaciones, etc. Cuando los datos se refieren solo a una variable, se denominan datos univariados. Ejemplos de datos univariados podrían ser los puntajes, la altura o los salarios del SAT. Cuando el conjunto de datos es pequeño, es más fácil comprenderlos; cuando hay un gran conjunto de datos, para comprender mejor los datos, se debe realizar un análisis para extraer algunas inferencias de los datos.
Los conjuntos de datos univariados se pueden analizar de dos maneras diferentes:
- El centro de datos es el resumen de todo el conjunto; la media y la mediana son las medidas que representan el centro de datos. La media de un conjunto de datos se encuentra sumando todos los valores del conjunto y dividiendo por el número de puntos de datos, mientras que la mediana es el valor medio cuando el conjunto de datos se ordena de menor a mayor.
- La dispersión de datos (también conocida como variación, fluctuación, dispersión, etc.) es la medida de qué tan lejos se encuentran los datos del centro de los datos (media o mediana). El rango, el rango intercuartil, la desviación media y la desviación estándar son las medidas de la dispersión de los datos.
Cómo encontrar la difusión de datos
La tendencia central describe el centro de los datos. En la Figura 1, dos conjuntos de datos x1 y x2 tienen la misma media, que es 9. Sin embargo, cuando se observa la dispersión de los datos, es bastante diferente. Mientras que x1 tiene diez puntos de datos de 8 y uno de 19, x2 tiene una distribución bastante uniforme que va de 4 a 14. Si estos dos conjuntos se compararan usando únicamente la media, se podría suponer que son aproximadamente iguales, cuando de hecho son diferentes.
Considere los salarios anuales de los empleados de la empresa A, que se indican a continuación:
$20.000, $20.000, $20.000, $20.000, $400.000
La media de este conjunto de datos es $96 000, lo que significa que el salario anual promedio en esta empresa es $96 000. Obviamente esto es engañoso.
Consideremos ahora la empresa B, nuevamente con 5 empleados cuyos salarios se detallan a continuación:
$10,000, $11,000, $50,000, $50,500, $50,600
La mediana de este conjunto de datos es 50.000 dólares, pero decir una vez más que el salario medio en esta empresa es 50.000 dólares al año es engañoso.
Ambas medidas, la media y la mediana, sólo representan el centro de los datos y por tanto pueden llevar a conclusiones engañosas. La media es especialmente sensible a los valores extremos de los datos, como se ve en el caso de la empresa A. Las medidas de dispersión pueden ayudar a comprender mejor los datos y sacar inferencias correctas.
Rango
El rango es la diferencia entre el valor máximo y mínimo del conjunto de datos.
{eq}Rango=máximo-mínimo {/eq}
Ejemplo: Considere los salarios anuales de la empresa A:
$20.000, $20.000, $20.000, $400.000
El rango de salarios en esta empresa será {eq}range=$400000-$20000=$380000 {/eq}
Rango intercuartil
Los conjuntos de datos se pueden analizar dividiendo el conjunto de datos en cuatro subconjuntos iguales, llamados cuartiles. La mediana representa la mitad de los datos y también se denomina segundo cuartil, {eq}Q_2 {/eq}, ya que divide los datos en dos partes iguales.
El rango intercuartil o IQR es la distribución de la mitad media de un conjunto de datos. Es la diferencia entre el tercer cuartil y el primer cuartil del conjunto de datos.
{eq}RIQ=Q_3-Q_1 {/eq}
Considere los puntajes del SAT de 11 estudiantes: 600, 720, 640, 450, 710, 640, 780, 550, 640, 730, 670.
Para encontrar el rango intercuartil:
- Organiza los datos de menor a mayor: 450, 550, 600, 640, 640, 640, 670, 710, 720, 730,780
- Hay {eq}n=11 {/eq} puntos de datos, por lo que {eq}median=\frac{n+1}{2}=\frac{11+1}{2}=6 {/eq}, que significa que el sexto número del conjunto será la mediana. {eq}Q_2=640 {/eq}
- Para encontrar el primer cuartil, use {eq}Q_1=\frac{n+1}{4}=\frac{11+1}{4}=3 {/eq}; esto significa que el tercer número es el primer cuartil o el cuartil inferior {eq}Q_1=600 {/eq}
- Para encontrar el tercer cuartil, use {eq}Q_3=3\cdot\frac{n+1}{4}=3\cdot\frac{11+1}{4}=9 {/eq}; esto significa que el noveno número es el tercer cuartil {eq}Q_3=720 {/eq}
- Encuentra la diferencia entre el tercer cuartil y el primer cuartil {eq}IQR=Q_3-Q_1=720-600=120 {/eq}
Esto significa que la mitad media del conjunto de datos tiene un rango de 120.
Desviación media
La desviación media, o desviación media absoluta, es la media de las diferencias absolutas (desviaciones) de los valores de los datos con respecto a la media del conjunto de datos. También podría definirse como la distancia promedio a la media. Para un tamaño de muestra n, la desviación media se calcula utilizando la fórmula
{eq}md=\frac{1}{n}\sum_{1}^{n}|x_{i}-\bar{x}| {/eq}
{eq}n: {/eq} número de valores de datos en el conjunto
{eq}x_i {/eq}: valores de datos en el conjunto
{eq}\bar{x} {/eq}: media del conjunto de datos
Considere los dos conjuntos de datos en la Figura 1.
{eq}x1 {/eq}: 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5; {eq}\bar{x1}=9 {/eq}
{eq}x2 {/eq}: 8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8; {eq}\bar{x2}=9 {/eq}
Usando la fórmula anterior, se puede calcular la desviación media del conjunto de datos x2 de la siguiente manera:
{eq}md=\frac{1}{11}\sum_{1}^{11}|x2_{i}-\bar{x2}| {/eq}{eq}=\frac{|8-9|+|8-9|+|8-9|+|8-9|+|8-9|+|8-9|+|8- 9|+|8-19|+|8-9|+|8-9|+|8-9|}{11}=\frac{21}{11}=1,91 {/eq}
La desviación media del conjunto de datos {eq}x1 {/eq} es 7,64, como se ve en la Figura 3 a continuación. Aunque ambos conjuntos de datos tienen la misma media, el promedio de las desviaciones de la media del conjunto {eq}x1 {/eq} es mayor. Esto significa que los puntos de datos individuales en el conjunto de datos x1 están más alejados de la media que los puntos de datos en el conjunto de datos x2.
Desviación Estándar
La medida de la dispersión respecto de la media se llama desviación estándar. Cuando la desviación estándar es baja, significa que los valores de los datos se encuentran en su mayoría alrededor de la media, y cuando la desviación estándar es alta, significa que los valores de los datos se alejan de la media.
{eq}sd = \sqrt{\frac{\sum_{i=1}^n (x_i – \overline{x})^2}{n} } {/eq}
dónde
{eq}n: {/eq}número de valores de datos en el conjunto
{eq}x_i {/eq}: valores de datos en el conjunto
{eq}\bar{x} {/eq}: media del conjunto de datos
Específicamente, es la raíz cuadrada del promedio de las desviaciones cuadradas de la media del conjunto de datos. Cuando la desviación estándar se eleva al cuadrado, se denomina varianza del conjunto de datos, que es el promedio de las desviaciones cuadradas de la media.
Considere el conjunto de datos {eq}x1 {/eq}: 10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5; {eq}\bar{x1}=9 {/eq}
{eq}sd = \sqrt{\frac{\sum_{i=1}^{11}(x_i – 9)^2}{11} }= \sqrt{\frac{{(10-9)^2+ (8-9)^2+(13-9)^2+(11-9)^2+(14-9)^2+(6-9)^2+(4-9)^2+(12 -9)^2+(7-9)^2+(5-9)^2}}{11} }=\sqrt{10}=3,16 {/eq}
Por lo tanto, la varianza de este conjunto de datos es {eq}(\sqrt{10})^2=10 {/eq}
Resumen de la lección
Los conjuntos de datos se analizan para descubrir información. Si bien las tendencias centrales brindan información sobre el centro de los datos, el análisis de la dispersión de los datos puede revelar cómo se distribuyen los puntos de datos. El rango es la diferencia entre los valores máximo y mínimo del conjunto de datos. El rango intercuartil o IQR indica cómo se distribuyen los datos alrededor de la mediana. IQR es la diferencia entre el tercer cuartil y el primer cuartil del conjunto de datos. La desviación media y la desviación estándar nos brindan información sobre cómo se distribuyen los datos alrededor de la media. La desviación media es el promedio de las desviaciones absolutas de la media. La desviación estándar es la raíz cuadrada del promedio de las desviaciones cuadradas de la media, mientras que la varianza es el cuadrado de la desviación estándar.
La dispersión en los conjuntos de datos
Tabatha es la directora del teatro comunitario local. Está preparando hojas de audición para las obras de la próxima temporada. Está organizando audiciones para dos obras. Uno se llama Wonky Willy: The Candy Maker, un musical sobre un misterioso fabricante de dulces que crea un concurso para que los niños y sus padres visiten su misteriosa fábrica de dulces. Para esta obra, Tabatha necesitará un elenco con actores de distintas categorías de edad. Tabatha conoce las edades promedio de la obra, pero como algunas de las edades son muy diferentes, necesita una mejor manera de identificar las variaciones en las categorías de edad.
Tabatha puede hacer esto observando la dispersión en el conjunto de datos. La dispersión de los datos es la medida de qué tan lejos están los números de un conjunto de datos de la media o mediana. Podemos calcular la propagación de diversas formas utilizando diferentes métodos conocidos como medidas de propagación.
Tabatha saca viejos discos de la última vez que su teatro presentó Wonky Willy. Nos ha anotado todas las edades de los actores: 12, 64, 11, 42, 9, 57, 13, 38, 12, 47, 43, 29, 36.
Tabatha puede decirnos que la media de este conjunto de datos es aproximadamente 31,7 y la mediana es aproximadamente 36. Sin embargo, no puede anunciar que necesita actores de entre 32 y 36 años; eso sería inexacto. Hay tres métodos que Tabatha puede utilizar para encontrar la dispersión de sus datos: rango, rango intercuartil y varianza.
Rango
La forma más sencilla de encontrar la dispersión en un conjunto de datos es identificar el rango, que es la diferencia entre los valores más altos y más bajos de un conjunto de datos. Ordenemos las edades de la última producción de menor a mayor: 9, 11, 12, 12, 13, 29, 36, 38, 42, 43, 47, 57, 64.
Ahora tome el número más bajo y el número más alto y encuentre la diferencia: 64 – 9 = 55. Hay una diferencia de edades de 55 años para esta producción. El rango es probablemente la mejor medida de dispersión de estos datos. Tabatha puede anunciar que busca actores entre 9 y 64 años para esta producción. Veamos otras formas en que Tabatha puede encontrar la dispersión en sus datos.
Rango intercuartil
El rango intercuartil es un valor que es la diferencia entre el valor del cuartil superior y el valor del cuartil inferior. Para este método tendremos que encontrar cada cuartil en el conjunto de datos. Para encontrar los cuartiles, siga estos pasos:
- Ordena los datos de menor a mayor.
- Encuentre la mediana del conjunto de datos y divídalo en dos mitades.
- Encuentra la mediana de las dos mitades.
Para obtener una visión más profunda de los cuartiles, consulte nuestra lección sobre ‘Cuartiles y rango intercuartil’.
Nuestra mediana es 36, que es el segundo cuartil. Para cada mitad del conjunto de datos debemos encontrar la mediana, la mediana del cuartil uno (la mitad inferior del conjunto de datos) es 12 y la mediana del cuartil tres (la mitad superior del conjunto de datos) es 45.
Para encontrar el rango intercuartil, simplemente tome el cuartil superior y reste el cuartil inferior: 45 – 12 = 33. El rango intercuartil es 33. Eso significa que la mayoría de las edades en este conjunto de datos tienen una diferencia de 33 años entre sí. Si bien es posible que esta información no le proporcione a Tabatha el rango de edad específico que busca, puede ayudarla a comprender la variedad de edades que busca en esta producción.
Diferencia
Ahora veamos la varianza en este conjunto de datos. La varianza es hasta qué punto se distribuye un conjunto de números. Para encontrar la variación, siga estos pasos:
- Encuentre la media del conjunto de datos.
- Resta cada número de la media.
- Cuadra el resultado.
- Suma los números.
- Divida el resultado por el número total de números en el conjunto de datos.
Eche un vistazo al cuadro a continuación para encontrar la variación en este conjunto de datos:
La primera columna contiene todos los números del conjunto de datos, la segunda columna muestra la media del conjunto de datos. En las siguientes columnas, tomamos los resultados de la columna número dos y elevamos cada número al cuadrado. En la cuarta columna, tomamos cada número de la columna tres y los sumamos, y en la quinta y última columna, dividimos el número de la columna número cuatro por el número total de valores del conjunto de datos, que es 13. Nuestra variación de este conjunto de datos es 329,72.
Cuando se analiza la varianza de un conjunto de datos, cuanto mayor es la varianza, mayor es la dispersión. El número 329,72 nos dice que los datos tienen una gran dispersión y que los números son muy diferentes de la media. Para obtener más información sobre la varianza, consulte nuestra lección sobre ‘Población y varianza muestral’.
También puede utilizar la desviación estándar para encontrar la dispersión en un conjunto de datos. Para simplificar, la desviación estándar es la raíz cuadrada de la varianza. Por lo tanto, la desviación estándar de este conjunto de datos es aproximadamente 18,15. Para ver este concepto en profundidad, consulte nuestra lección ‘Desviación estándar y cambios en la media’.
Resumen de la lección
La dispersión de los datos es la medida de qué tan lejos están los números de un conjunto de datos de la media o la mediana. La dispersión de los datos puede mostrarnos cuánta variación hay en los valores del conjunto de datos. Es útil para identificar si los valores del conjunto de datos están relativamente juntos o separados. Hay tres métodos que puede utilizar para encontrar la dispersión en un conjunto de datos: rango, rango intercuartil y varianza.
El rango es la diferencia entre los valores más altos y más bajos de un conjunto de datos. Puede encontrar el rango tomando el número más pequeño del conjunto de datos y el número más grande del conjunto de datos y restándolos. Así encontró Tabatha el rango de edad de los actores que necesitaba para su obra.
También puede encontrar la dispersión en el conjunto de datos utilizando el rango intercuartil, que es un valor que es la diferencia entre el valor del cuartil superior y el valor del cuartil inferior. Para este método tendrás que encontrar cada cuartil en el conjunto de datos. Para encontrar los cuartiles, siga estos pasos:
- Ordena los datos de menor a mayor.
- Encuentre la mediana del conjunto de datos y divídalo en dos mitades.
- Encuentra la mediana de las dos mitades.
También puedes usar la varianza, que es hasta qué punto se distribuye un conjunto de números. Para encontrar la variación, siga estos pasos:
- Encuentre la media del conjunto de datos.
- Resta cada número de la media.
- Cuadra el resultado.
- Suma los números.
- Divida el resultado por el número total de números en el conjunto de datos.
Cada uno de estos métodos nos dice algo sobre la dispersión de los datos. El rango es mejor para conjuntos de datos en los que se buscan datos que estén muy alejados y que lo abarquen todo. El rango intercuartil es mejor cuando se observa un grupo de números y se comparan con el promedio, como puntuaciones de exámenes o datos basados en el rendimiento, como puntuaciones de juegos. La varianza es mejor para mostrar qué tan lejos están los números entre sí usando un valor único en comparación con la media. Cuanto mayor sea el valor de la varianza, más se alejarán los números de la media.
Los resultados del aprendizaje
Después de esta lección, debería poder:
- Explicar qué es la dispersión de datos y definir los tres métodos para identificarla
- Enumere los pasos necesarios para encontrar el rango y la varianza intercuartílicos.
- Describir cuándo es mejor utilizar rango, rango intercuartil o varianza
Articulos relacionados
- Propiedades de una sustancia: Definición, tipos y ejemplos
- Bosón de Higgs: Definición, importancia y descubrimiento
- Biología Molecular y Citogenética: Definición y origen
- Planificación: Definición y tipos
- Cliché: Definición, frases y ejemplos
- Literatura Fantástica Moderna: Definición, historia y ejemplos
- Arte Cubista: Definición, características y movimiento
- Atrio en Arquitectura: Definición y ejemplos
- Fuerza Centrípeta: Definición, ecuación y ejemplos
- Consecuencialismo: Definición, críticas y ejemplos