Selección de medidas de centro y variabilidad para datos

Rodrigo Ricardo Publicado el 31 octubre, 2020 5 minutos y 30 segundos de lectura

Medidas de tendencia central

Susan es maestra de tercer grado y en su salón de clases hay una pequeña biblioteca de libros que los estudiantes pueden sacar para leer. Susan decide hacer un seguimiento de la cantidad de libros prestados por cada estudiante durante un mes, registrando todos los datos que recopila en una tabla como esta:

tabla de datos sobre libros leídos

Una vez que Susan ha recopilado sus datos, ¿cómo puede determinar el número típico de libros que los niños de su clase prestan y resumir y presentar esta información? Bueno, Susan puede usar una de las medidas comunes de tendencia central que representan la posición central de un conjunto de datos.

Media, mediana y moda

Hay tres medidas importantes de tendencia central que se utilizan comúnmente para resumir un conjunto de datos: media, mediana y moda. La media es el promedio de todos los valores. Para encontrar la media de los datos que se muestran en esta tabla, sumaría el número total de libros leídos y lo dividiría por el número de estudiantes.

cálculo medio

La mediana es el número que cae en el centro exacto de todas las medidas. Para encontrar la mediana, organice todos los puntos de datos de menor a mayor para encontrar el que está justo en el medio. Si hay un número par de medidas, elija el número que se encuentre entre los dos valores medios.

cálculo de la mediana

La tercera medida de tendencia central es la moda del conjunto de datos, o el número que ocurre con mayor frecuencia. Para los datos de Susan, la moda sería 3, porque 4 estudiantes leen 3 libros y este es el número más común de libros leídos. Aunque solo hubo un modo en este caso, es posible tener más de uno si hubo dos o más puntos de datos que ocurrieron la misma cantidad de veces.

Medidas de variabilidad

Además de informar la media, la mediana o la moda de un conjunto de datos, a menudo también es útil saber algo sobre la dispersión de los datos. Hay varias formas de medir una cantidad conocida como variabilidad o la cantidad de propagación en un conjunto de datos.

Una forma de describir la variabilidad en un conjunto de datos es calcular el rango o la diferencia entre los valores más alto y más bajo en un conjunto de datos. En nuestro ejemplo, rango = 8 – 0 = 8 libros.

Otra medida común de variabilidad se conoce como desviación estándar , que mide qué tan lejos está cada una de las medidas de la media. Si la desviación estándar es baja, significa que la mayoría de los valores caen cerca de la media, por lo que la variabilidad es baja. Si muchos de los valores están lejos de la media, entonces la variabilidad y, por lo tanto, la desviación estándar será alta.

tabla de desviaciones estándar

Cómo elegir una medida

Ahora que conoce las formas comunes de medir la tendencia central y la variabilidad, ¿cómo determina cuál es mejor utilizar?

Si los datos siguen una distribución normal , esto significa que los puntos de datos se distribuyen por igual en cada lado de la media.

distribución normal

Para datos distribuidos normalmente, la mediana y la media serán muy similares, por lo que se puede utilizar cualquiera de las dos; sin embargo, usar la media es el enfoque más común. A veces, en lugar de distribuirse normalmente, puede haber valores atípicos que desvíen los datos hacia un lado o hacia el otro. Los valores atípicos que están lejos de la media pueden cambiar mucho la media, de modo que no refleje el punto medio de los datos. Si hay valores atípicos y los datos no parecen estar distribuidos normalmente, entonces la mediana es una mejor opción que la media porque refleja con mayor precisión el verdadero punto medio de sus datos.

Veamos otro ejemplo. Suponga que el dueño de un restaurante quiere saber cuántas pizzas debería esperar vender en un día normal. Registra el número vendido durante varios días, pero en un día, hay un gran pedido y se venden muchas más pizzas de lo habitual. En este caso, sería mejor utilizar la mediana para representar un día típico, ya que un pedido grande podría tener una gran influencia en la media, pero no en la mediana.

cuando usar la mediana

Si bien tanto la mediana como la moda son excelentes para datos numéricos, la moda es una mejor medida para usar cuando los datos no son numéricos. ¿Cómo pueden los datos no tener números? Bueno, imagina que tienes una heladería y quieres saber qué sabores de helado son los más populares. En este caso, realizaría un seguimiento de todos los pedidos y luego determinaría el modo (el sabor más comúnmente pedido). Siempre que desee utilizar sus datos para determinar qué elemento es el más popular, el modo es una buena opción.

Resumen de la lección

Las medidas de tendencia central representan la posición central de un conjunto de datos. La media es el promedio de todos los valores. La mediana es el número que cae en el centro exacto de todas las medidas, mientras que la moda es el número que ocurre con mayor frecuencia.

Hay varias formas de medir la variabilidad o la cantidad de propagación en un conjunto de datos. Una forma de medir la variabilidad, el rango , es la diferencia entre los valores más alto y más bajo en un conjunto de datos. Otra medida común de variabilidad se conoce como desviación estándar , que mide qué tan lejos están cada una de las mediciones en un conjunto de datos del valor medio.

Los datos numéricos se representan mejor mediante la mediana o la media. Cuando los datos se distribuyen normalmente sin valores atípicos, la media y la mediana pueden usarse para representar el verdadero centro de los datos. Sin embargo, la mediana es una mejor medida para usar que la media cuando hay valores atípicos o los datos están desviados de una distribución normal. El modo es la mejor medida para usar cuando los datos no son numéricos o en cualquier situación en la que desee conocer la opción más popular entre un grupo.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador