Modelos probabilísticos: definición y ejemplos

¿Quieres explorar más? 📂 Explorar Categorías 🔥 Tendencias 🎓 Cursos

Modelado de relaciones

Algunas cosas las sabemos con certeza. Por ejemplo, el agua se congela a 0 grados Celsius y hierve a 100 grados Celsius. Algunas relaciones también las conocemos con certeza. Si conocemos la temperatura en grados Celsius, podemos convertir ese valor a la temperatura en grados Fahrenheit usando esta fórmula:

F = (9/5 * C ) + 32

Esta fórmula matemática es en realidad un modelo de la relación entre dos escalas de temperatura diferentes. Es un modelo determinista , ya que la relación entre las variables se conoce con exactitud. Un modelo determinista es aquel en el que no hay error en la predicción de una variable de las demás.

En muchos casos, las relaciones observadas no son deterministas. En esos casos, a menudo podemos modelar la relación con bastante precisión, pero debemos introducir otros componentes para dar cuenta de la variabilidad observada en los datos reales. Los modelos probabilísticos son modelos estadísticos que incluyen una o más distribuciones de probabilidad en el modelo para dar cuenta de estos factores adicionales.

Clima y tráfico

El clima y el tráfico son dos sucesos cotidianos que tienen una aleatoriedad inherente, pero que también parecen tener una relación entre sí. Por ejemplo, si vive en un clima frío, sabe que el tráfico tiende a ser más difícil cuando la nieve cae y cubre las carreteras. Podríamos ir un paso más allá y plantear la hipótesis de que habrá una fuerte correlación entre el clima nevado y el aumento de los incidentes de tráfico. Para ayudar a analizar nuestra hipótesis, podemos crear un modelo matemático simple de incidentes de tráfico en función del clima nevado, basado en datos conocidos.

Tema relacionado:
Intervención en Situaciones de Crisis: Asesoramiento, técnicas y modelos

En la siguiente tabla, hemos acumulado un registro de la cantidad de días de nieve ocurridos en una determinada localidad durante los últimos 10 años, junto con la cantidad de incidentes de tráfico denunciados a la policía en el mismo año. Se puede utilizar un diagrama de dispersión de los datos para visualizar la posible correlación.

Incidentes (eje y) frente a días de nieve (eje x)

Tema relacionado:
Investigación Científica: Mapas, modelos y tecnologías geoespaciales

Vemos que hay una tendencia general en los datos, con incidentes de tráfico que aumentan a medida que aumenta el número de días de nieve. Hemos agregado una línea de tendencia lineal a los datos para resaltar esta relación.

Esta tendencia lineal es, de hecho, un modelo probabilístico de línea recta de los datos. Los puntos de datos individuales no se encuentran exactamente en la línea, por lo que este modelo lineal no es determinista. Existe algún error en la capacidad predictiva de nuestro modelo, como lo muestran las líneas verticales que unen puntos individuales a la línea de tendencia lineal. La magnitud de cada uno de estos representa un error en la capacidad predictiva de nuestro modelo. Sin embargo, dado un margen para estos términos de error, este modelo de línea recta parece representar razonablemente el número de incidentes de tráfico que se puede esperar que ocurran en esa localidad durante algún año, dado el número de días de nieve.

Modelado de línea recta

Un modelo probabilístico de línea recta a menudo se denomina regresión lineal o línea recta de mejor ajuste. Es una línea de mejor ajuste porque intenta minimizar la magnitud de todos los términos de error individuales. Todos los paquetes de software estadístico y de hoja de cálculo básicos se pueden utilizar para calcular un modelo de regresión lineal. Sin embargo, el cálculo básico depende solo de unas pocas variables. Si x es nuestra variable independiente, como los días de nieve, e y es nuestra variable dependiente, como los incidentes de tráfico, se calculan los siguientes valores estadísticos:

M x = Media de x

M y = Media de y

Tema relacionado:
Segmentación de Clientes: Definición, usos y ejemplos de los modelos

S x = Desviación estándar de x

S y = Desviación estándar de y

r = valor de correlación entre x y y

A partir de estos, podemos calcular la ecuación lineal y = Ax + b usando los siguientes cálculos:

A = pendiente = r * S y / S x

b = intersección = M y – A * M x

La ecuación derivada de nuestros datos es:

Incidentes = (150,2 * Días de nieve) + 2414,7

Analizando la regresión

Una línea de regresión de mejor ajuste siempre pasa a través de la media de x y y . Dicho de otra manera, el promedio de los valores predichos siempre será igual al promedio de los valores de datos reales. Los propios términos de error tendrán un promedio de cero. Dados suficientes puntos de datos y una tendencia verdaderamente lineal de los datos, veríamos que los términos de error caerían a lo largo de una distribución de probabilidad normal, con más errores agrupados cerca del valor cero y menos valores atípicos grandes. Una regresión en línea recta es un modelo de probabilidad lineal que incluye una distribución de probabilidad normal de errores centrada alrededor de cero.

Para evaluar mejor la dispersión de los datos en relación con nuestro modelo, podemos calcular la raíz del error cuadrático medio, RMSE, tomando la suma de los errores cuadráticos, dividiendo por el número de contribuyentes y luego tomando la raíz cuadrada de ese valor. El valor de RMSE se aproxima a una desviación estándar de nuestro modelo.

También podemos usar la correlación al cuadrado, r 2 , como una medida de variación explicada. En nuestro modelo, r 2 = 0,93, lo que indica que el 93% de la variación en los incidentes de tráfico se puede explicar por los días de nieve. Los datos mucho más dispersos o aleatorios que los encontrados en nuestro ejemplo tendrían un valor de correlación al cuadrado mucho más bajo.

Resumen de la lección

Los modelos deterministas se pueden utilizar cuando una variable se puede predecir exactamente a partir de otras variables. Los modelos probabilísticos incluyen el uso de distribuciones de probabilidad estándar, lo que nos permite tener en cuenta el error o la aleatoriedad en nuestros modelos estadísticos de datos. Una regresión lineal es un modelo probabilístico de línea recta . Es una ecuación lineal que hace el mejor ajuste para un conjunto de puntos de datos. Los términos de error (o las diferencias entre el modelo y los datos reales) se minimizan con este método. Los términos de error tendrán una distribución de probabilidad normal centrada alrededor de cero, lo que nos da un modelo probabilístico.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

modelos

Rodrigo Ricardo Editor y fundador