Distribuciones de probabilidad marginal y condicional: definición y ejemplos

Publicado el 23 noviembre, 2020

Definiciones

En estadística, a menudo nos encontramos mirando dos variables discretas simultáneamente, lo que nos permite buscar correlaciones en los datos. Por ejemplo, podríamos estar interesados ​​en los hábitos alimentarios de una población. Podemos plantear la hipótesis de que el tiempo de viaje, o cualquier otra variable medible como la edad o los ingresos, podría mostrar una relación con esos hábitos. Las probabilidades marginales y condicionales son formas de observar combinaciones específicas de datos bivariados como este.

La probabilidad marginal es la probabilidad de que ocurra un solo evento. Al calcular las probabilidades marginales, descartamos cualquier cálculo de variable secundaria. En nuestro ejemplo hipotético podemos calcular dos probabilidades marginales, podemos observar hábitos alimenticios específicos o podemos observar los tiempos de viaje. En esencia, estamos calculando la probabilidad de una variable independiente.

Una probabilidad condicional es la probabilidad de que ocurra un evento dado que ya ha ocurrido otro evento específico. Por ejemplo, calcularíamos la probabilidad de alguna conducta alimentaria dado que conocemos los tiempos de viaje de la población. Decimos que estamos poniendo una condición en la distribución más grande de datos, o que el cálculo de una variable depende de otra variable.

Data de muestra

Los datos bivariados se prestan para trabajar con tablas, que contienen filas y columnas de puntos de datos organizados por dos encabezados básicos. Podemos usar datos organizados en tablas para calcular fácilmente probabilidades marginales y condicionales.

La siguiente tabla muestra las respuestas de la encuesta para dos preguntas. Uno se relaciona con la duración del tiempo total de viaje diario del individuo, y el otro se relaciona con si uno come fuera, recibe comida para llevar o entrega a domicilio, o prepara sus propias comidas en casa la mayor parte del tiempo.


Respuestas de encuestas tabuladas
Respuestas de encuestas tabuladas

Estos números brutos se pueden convertir a porcentajes, lo que hace que nuestros valores de probabilidad sean relativamente fáciles de calcular.


Valores de probabilidad
Valores de probabilidad

Cálculo de probabilidad marginal

Dijimos que había dos cálculos de probabilidad marginal. Al calcular cálculos marginales a partir de una tabla como ésta, simplemente agregamos filas o columnas inferiores, designadas por los valores de suma. La tabulación de las filas proporciona nuestra probabilidad marginal para los tiempos de viaje. Si miramos hacia abajo en la última fila, vemos que según nuestras tres categorías, la mayor cantidad de encuestados, más del 42%, pasó más de una hora viajando diariamente.

De manera similar, tabular columnas hacia abajo nos proporciona una mirada a los hábitos alimenticios generales de nuestros encuestados. Estos valores se dividen de manera relativamente uniforme, en 31, 37 y 32 por ciento. Podemos decir que, independientemente de otros factores, los hábitos alimentarios de nuestra población no tienen un amplio rango de probabilidades.

Cálculo de probabilidad condicional

Nuestro cálculo de probabilidad condicional es un enunciado de probabilidad dada una condición preexistente. Cada una de las sumas de filas y columnas se convierte en la línea de base para calcular las probabilidades de cada variable en esa fila o columna.

Por ejemplo, ¿cuáles son los hábitos alimenticios de la población dado que solo queremos mirar a los encuestados que no se desplazaron hacia y desde el trabajo? La probabilidad marginal de los que no viajan diariamente es 0.276, que consta de valores 0.022, 0.075 y 0.179. Dividir cada uno de estos valores por 0,276 da probabilidades condicionales de:

  • Restaurante = 0.022 / 0.276 = 0.080
  • Para llevar = 0.075 / 0.276 = 0.272
  • Cocina casera = 0.179 / 0.276 = 0.649

A partir de este cálculo de probabilidad condicional, vemos que un gran porcentaje de los encuestados que no se desplazaban hacia y desde el trabajo comían comidas caseras la mayor parte del tiempo.

Si bien ambos cálculos de probabilidad son útiles, el cálculo de probabilidad condicional nos proporciona una mirada más profunda a nuestros datos, dado que conocemos una condición preexistente. En este caso, es justo decir que los tiempos de viaje parecen tener una correlación con los hábitos alimenticios que hemos medido.

Resumen de la lección

Las probabilidades marginales y condicionales nos brindan diferentes formas de analizar datos bivariados. La probabilidad marginal nos da la probabilidad de que ocurra un solo evento. La probabilidad condicional nos proporciona la probabilidad de ocurrencia de eventos dada una condición preexistente. Las probabilidades condicionales dependen del valor de otra variable medida.

La probabilidad marginal en una tabla se organizaría como una fila o columna, que se puede sumar para obtener todas las medidas de ese evento.

La probabilidad condicional utiliza una sola fila o columna, ya que la columna o fila correspondiente se ha fijado como condición para el cálculo.

¡Puntúa este artículo!