Medidas de dispersión: definición, ecuaciones y ejemplos

Rodrigo Ricardo Publicado el 23 noviembre, 2020 5 minutos y 51 segundos de lectura

Definición de dispersión

Finge que quieres vender tu casa. Limita su búsqueda a dos empresas: SCT Housing y WCT Housing. Ambas empresas anuncian que los vendedores reciben, en promedio, el 90% de su precio de venta. ¿Importa qué empresa elijas?

La verdadera pregunta es, ¿la media (promedio) describe los datos con la suficiente precisión para tomar una decisión informada? No, no es así. La media no es un predictor confiable; solo describe el conjunto de datos como un todo y no dice qué está sucediendo dentro del conjunto.

Agreguemos algunos datos al ejemplo para ilustrar el punto. Suponga que lo siguiente muestra el porcentaje del precio de venta recibido en las nueve ventas anteriores de cada empresa:

  • SCT: 88, 92, 91, 89, 89, 91, 91, 89 y 90
  • WCT: 71, 100, 100, 83, 100, 95, 86 y 90

¿Cómo puede tomar una decisión informada sobre qué empresa le ofrecerá el mayor beneficio con el menor riesgo? Debe analizar cada conjunto de dispersión , que es la cantidad de variación dentro de un conjunto de datos. Solo cuando lo haga, podrá comparar realmente estas dos empresas.

Medidas de dispersión

Los conjuntos de datos con fuertes tendencias centrales son conjuntos en los que los elementos se agrupan estrechamente alrededor de la media. La tendencia central débil en los datos indica que los elementos individuales no se agrupan de manera significativa, lo que hace que las predicciones basadas en estos datos sean menos confiables que aquellas basadas en conjuntos de datos con fuertes tendencias centrales.

Por ejemplo, si su correo siempre se entrega entre las 8:02 am y las 8:08 am, puede predecir de manera confiable cuándo llegará el correo. Sin embargo, si la entrega de su correo puede variar entre las 8:00 am y las 5:30 pm, ya no podrá determinar la hora de entrega y la planificación de entregas especiales se volverá mucho más complicada.

En esta lección, repasaremos tres medidas de dispersión:

  • Rango, la distancia entre los valores más bajo y más alto del conjunto.
  • Rango intercuartil
  • Desviación Estándar

Exploremos estas medidas de dispersión aplicándolas a nuestro escenario de apertura.

1. Rango

Para encontrar el rango de cualquier conjunto de datos, primero debe poner los valores en orden de menor a mayor. Luego, simplemente resta lo más bajo de lo más alto. Antes de continuar, regrese y busque el rango de cada uno de los conjuntos de datos anteriores. Entonces:

  • Caja SCT: 88, 89, 89, 89, 90, 91, 91, 91, 92 = 92 – 88 = 4. El rango es 4.
  • Alojamiento WCT: 71, 83, 85, 86, 90, 95, 100, 100, 100 = 100 – 71 = 29. El rango es 29.

Un rango pequeño indica una fuerte tendencia central. Recuerde que una fuerte tendencia central nos dice que todos los datos están agrupados estrechamente alrededor de la media.

El rango identifica qué tan variado es un conjunto de datos, pero no tiene en cuenta los valores atípicos o los datos que quedan muy por fuera del resto del conjunto de datos (como el 71 en el conjunto WCT). Los valores atípicos pueden sesgar artificialmente las medidas de tendencia central.

2. Rango intercuartil

Para tener en cuenta los posibles valores atípicos, utilice el rango intercuartílico (IQR) . Esta es una medida del rango dentro del 50% medio del conjunto de datos.

Para encontrar el IQR, separe el conjunto de datos en cuartiles (o cuatro partes iguales) colocando primero el conjunto de datos en orden numérico (como hicimos con el rango). Luego, encuentre la mediana (es decir, el medio) del conjunto. Esto se identifica como Q2, o el comienzo del segundo cuartil. Después de encontrar la mediana de todo el conjunto, identifique la mediana de cada mitad del conjunto.

La mediana de la mitad inferior es Q1 y la mediana de la mitad superior es Q3. Estos dos puntos marcan la parte superior e inferior del 50% del medio del conjunto de datos. El rango es la diferencia entre Q1 y Q3.

Vea si puede identificar el IQR de cada conjunto antes de continuar.

Un diagrama de caja puede ayudarlo a visualizar el IQR.

nulo

Cuanto menor sea el IQR, más fuerte será la tendencia central del conjunto de datos. Dado que todavía estamos tratando con rangos, todavía hay incógnitas en los datos. Para comparar con seguridad estos dos conjuntos de datos, necesitaremos una medida más sólida.

3. Desviación estándar

La desviación estándar (DE) es una medida estadística utilizada para mostrar la dispersión de un conjunto de datos. Es más fuerte que las otras dos medidas porque manipula cada elemento de un conjunto, lo que da como resultado una medida estadísticamente significativa que se puede utilizar para comparar con precisión diferentes conjuntos de datos. Como ocurre con los demás, cuanto menor es la DE, más fuerte es la tendencia central del conjunto de datos.

La fórmula para SD aparece aquí:

nulo

Brevemente, reste cada entrada en un conjunto de datos de la media del conjunto y eleve al cuadrado el resultado. Luego sume los cuadrados y divídalos por uno menos que el número de entradas. Finalmente, saca la raíz cuadrada de ese número para obtener la SD. No olvide que el software de análisis de datos más común (como Excel) tiene funciones para ayudarlo a calcular la DE de los conjuntos.

El 68% de todos los datos cae dentro de una DE de la media (ya sea por encima o por debajo).

Para nuestros ejemplos, las SD son:

  • SCT SD = 1,32
  • WCT SD = 9,85

Es evidente que SCT Housing significa ‘Strong Central Tendency’ y este es el agente que ofrece los porcentajes de ventas más confiables. WCT Housing (tendencia central débil) ofrece la posibilidad de vender al precio de venta, pero sus resultados varían ampliamente, por lo que no son confiables y riesgosos.

Resumen de la lección

Muy bien, tomemos un momento para revisar lo que hemos aprendido. La dispersión es la cantidad de variación en un conjunto de datos. Las tendencias centrales fuertes y las tendencias centrales débiles simplemente indican cuán estrechamente se distribuyen los datos alrededor de la media.

Las tendencias centrales fuertes son conjuntos en los que los elementos están estrechamente agrupados alrededor de la media, mientras que una tendencia central débil en los datos indica que los elementos individuales no se agrupan de manera significativa. Comprender la dispersión de un conjunto de datos puede ayudarlo a tomar decisiones informadas.

Hay tres medidas principales de dispersión:

  • Rango , que es donde coloca los valores en orden de menor a mayor y luego resta el menor del mayor.
  • Rango intercuartílico , que es una medida del rango dentro de solo el 50% medio del conjunto de datos.
  • Desviación estándar , que es una medida estadística que se utiliza para mostrar la dispersión de un conjunto de datos.

Estos varían en fuerza y ​​complejidad, pero comparten una cosa en común: cuanto menor es el puntaje, más fuerte es la tendencia central y menor es la dispersión del conjunto de datos.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador