Histogramas en distribuciones de probabilidad: uso y propósito

Publicado el 23 noviembre, 2020

Representar datos gráficamente

Olivia trabaja para el departamento de salud de su ciudad y, como parte de un programa de investigación de salud pública, está recopilando datos sobre la altura y el peso de los estudiantes de tercer grado en la escuela primaria local. Tiene muchos datos, pero necesita una forma de representar sus datos visualmente en un gráfico simple y fácil de entender. ¿Qué puede hacer ella?

Histogramas

Una forma de representar datos como este es mediante el uso de un histograma , que es un gráfico que muestra grupos de datos mediante barras de diferentes alturas. Para hacer un histograma de los datos que ha recopilado sobre la estatura de los estudiantes, Olivia primero debe decidir cómo quiere agrupar los datos. Cada agrupación, conocida como bin , debe estar representada por una barra en el histograma.

Al observar sus datos, Olivia se da cuenta de que las alturas oscilan entre 46 pulgadas y 59 pulgadas. Decide agrupar los datos en contenedores de 2 pulgadas de ancho. Por lo tanto, todos los estudiantes cuya altura esté entre 46.0 pulgadas y 47.9 pulgadas se agruparán en el primer contenedor. Los estudiantes cuya altura caiga entre 48.0 y 49.9 estarían en el segundo contenedor, y el resto de los datos se agruparían en contenedores de igual tamaño hasta el último contenedor, que contendría alturas entre 58.0 y 59.9 pulgadas.

Una vez que los datos se han agrupado en bins, se puede crear el histograma. La altura de cada barra en el histograma corresponde al número en ese contenedor en particular.


Este histograma muestra la distribución de la altura entre los estudiantes de tercer grado en una escuela primaria.
ejemplo de histograma alturas de estudiantes

Este histograma muestra claramente que la mayor cantidad de estudiantes tiene entre 52.0 y 53.9 pulgadas, y que exactamente veinte estudiantes tienen entre 46.0 y 47.9 pulgadas de altura.

Usos de histogramas

Los histogramas son una excelente manera de presentar datos en un formato visual. Se utilizan comúnmente para determinar cómo se distribuyen los datos.

Los histogramas pueden mostrarle si los datos están distribuidos normalmente, son bimodales o están sesgados hacia la izquierda o hacia la derecha. Esta información se puede utilizar para determinar qué métodos estadísticos o pruebas utilizar para analizar más los datos.

Por ejemplo, los datos de Olivia parecen tener una distribución aproximadamente normal porque las barras del medio son más grandes que las de cada lado. Es posible que esto no sea obvio solo con mirar una lista de números, pero se vuelve muy claro si convierte los datos en un histograma.

Tipos de histogramas

Univariante

Los histogramas se pueden utilizar para mostrar la distribución de una variable. Esto se conoce como histograma univariado porque solo hay una variable que se está considerando. En el caso de Olivia, hizo un histograma de la altura de los estudiantes, por lo que la altura era la variable que se estaba midiendo.

Bivariado

Sin embargo, Olivia también midió el peso de cada estudiante de tercer grado. ¿Y si quisiera mostrar la distribución de la altura y el peso en un solo histograma? Un histograma como este que muestra la relación entre dos variables se conoce como histograma bivariado . Los histogramas bivariados se utilizan comúnmente en estadísticas multivariadas.

Los histogramas bivariados también se denominan histogramas tridimensionales (3D) porque siempre hay tres ejes. El eje vertical representa el número de puntos de datos en cada contenedor (que es el número de estudiantes en este caso) y los dos ejes horizontales representan las dos variables que se están midiendo.


Este histograma bivariado muestra la relación entre la altura y el peso para los estudiantes de tercer grado
histograma bivariado

Análisis de histogramas bivariados

Al igual que un histograma univariado, los histogramas bivariados se pueden utilizar para determinar la distribución de los datos. La forma de la distribución puede brindarle información importante sobre la naturaleza de las variables que está midiendo. Por ejemplo, si ve varios picos, puede indicar que ha muestreado varias poblaciones distintas en lugar de una única homogénea.

También es necesario determinar cómo se distribuyen los datos para decidir qué métodos estadísticos puede utilizar para un análisis posterior. Algunas técnicas solo se pueden aplicar si los datos se distribuyen normalmente. Otros pueden usarse para datos bimodales o asimétricos.

En muchos casos, es útil utilizar paquetes de software como Matlab, Statistica o SigmaPlot para crear histogramas suavizados. Un histograma suavizado muestra la distribución como una superficie 3D suave en lugar de barras distintas. A menudo es más fácil determinar cómo se distribuyen los datos utilizando un histograma suavizado en lugar de un histograma bivariado tradicional.

Resumen de la lección

Un histograma es un gráfico que muestra datos continuos usando barras de diferentes alturas. La altura de cada barra corresponde al número de medidas que se encuentran dentro de un rango de valores, conocido como contenedor .

Los histogramas pueden ser univariados o bivariados. Los histogramas univariados muestran la distribución de una variable, mientras que los histogramas bivariados muestran la distribución de dos variables en el mismo histograma.

Los histogramas se pueden usar para determinar cómo se distribuyen los datos, y esto puede afectar qué técnicas estadísticas o pruebas necesita usar. Los histogramas bivariados también se pueden utilizar para determinar si existe alguna relación entre las dos variables que se miden.

¡Puntúa este artículo!