Intervalos de predicción: definición y ejemplos

Publicado el 23 noviembre, 2020 por Rodrigo Ricardo

Haciendo predicciones

Imagine que tiene un puesto de comida en un estadio que alberga eventos deportivos al aire libre y desea estimar las ventas probables de varios artículos. Si confía en el pronóstico del tiempo, puede abastecerse de chocolate caliente cuando esté frío y helado cuando esté caliente. Sus predicciones de ventas se basarían en experiencias o conocimientos anteriores y podrían ser muy útiles para ayudarlo a maximizar sus ganancias.

Si bien no podemos usar estadísticas para predecir el futuro, es posible usar intervalos de predicción para predecir observaciones de datos futuras basadas en poblaciones conocidas de datos. Podemos basar esa predicción en la cantidad de incertidumbre que estamos dispuestos a aceptar en nuestra estimación.

Intervalos de predicción

Como sugiere su nombre, un intervalo de predicción proporciona un rango de valores que probablemente contenga una ocurrencia futura de un evento o el valor de una muestra de datos adicional. Este rango se basa en el análisis de una población de datos descrita anteriormente. El intervalo de predicción se calcula generalmente en relación con un modelo estadístico de los datos conocidos, a menudo utilizando un análisis de regresión lineal.

La incertidumbre asociada con el intervalo de predicción se establece por adelantado y forma parte del proceso de cálculo. Por ejemplo, es posible que deseemos encontrar un intervalo de predicción del 95% para los datos. En este caso, los cálculos nos llevarán a estar seguros de que una observación específica tomada en el futuro caerá dentro del intervalo de predicción 95 de 100 veces.

Intervalos de predicción frente a intervalos de confianza

Los intervalos de predicción a menudo se confunden con intervalos de confianza . Si bien están relacionados, los dos procesos tienen diferentes cálculos y propósitos. La distinción básica entre los dos es que el intervalo de predicción predice en qué rango caerá una observación individual futura, mientras que un intervalo de confianza muestra el rango probable de valores asociados con algún parámetro estadístico de los datos, como la media de la población.

Ésta es una distinción importante, porque el intervalo de confianza de los valores medios para las poblaciones muestreadas será mucho más pequeño o más estricto que el intervalo de predicción para los mismos datos. El intervalo de predicción debe ser lo suficientemente amplio como para incluir casi todos los puntos de datos reales, mientras que el intervalo de confianza solo necesita incluir promedios de muestras de datos, que necesariamente caen dentro de un límite mucho más pequeño.

Calcular intervalos de predicción

El cálculo manual de un intervalo de predicción es relativamente tedioso de realizar a mano y, por lo general, se realiza mediante un paquete de software estadístico. Aquí está la ecuación básica:

Intervalo de predicción

ME representa el margen de error para el intervalo de predicción en cualquier lado del modelo de regresión. En lugar de trabajar con los detalles, podemos ver esto gráficamente. Aquí hay un ejemplo de nuestro escenario de puesto de concesión; Hemos elaborado un diagrama de dispersión de las ventas recientes de chocolate caliente contra la temperatura de ese día. Como se esperaba, las ventas de bebidas calientes bajan a medida que aumenta la temperatura.


Gráfico de dispersión de ventas frente a temperatura
Diagrama de dispersión de chocolate caliente

Se traza una tendencia lineal de mejor ajuste en los datos, que está representada por esta ecuación:

Ventas = 14,250 – 155 * Temperatura

A partir de esto, podríamos hacer una predicción de ventas basada en la temperatura esperada cualquier día. Una temperatura prevista de 70 grados da como resultado 3.400 ventas esperadas de chocolate caliente. Sin embargo, el rango de los datos reales es bastante amplio, hasta 4.000 unidades cerca del rango de 70 grados. En lugar de depender solo del ajuste lineal, podemos agregar el intervalo de predicción a los datos conocidos.


Gráfico de dispersión con intervalo de predicción
Gráfico de dispersión con intervalos de predicción

Las líneas punteadas representan el intervalo de predicción del 95% para estos datos. El intervalo de predicción asociado a una temperatura de 70 grados es {1680, 5120}. De esto podemos decir que la próxima vez que haga 70 grados afuera, tenemos un 95% de confianza en que nuestras ventas estarán entre 1.680 y 5.120 tazas de chocolate caliente. Si bien ese puede parecer un rango amplio, el cálculo debe tener en cuenta la variabilidad individual que se muestra en los datos históricos.

Tamaño de la muestra e intervalo de predicción

En estadística, a menudo ocurre que sumar al número de muestras puede aumentar nuestra confianza en alguna estimación. Sin embargo, el intervalo de predicción mide los comportamientos individuales, en contraposición a los valores medios o medianos, y los comportamientos individuales tienden a ser inciertos independientemente del tamaño de la muestra.

También podemos ver en la ecuación para calcular el intervalo de predicción que tiene el siguiente término agregado a los cálculos de errores individuales:

ecuación

Donde n = tamaño de la muestra. Cuando aumentamos el valor de n en esta ecuación, el término completo tiende hacia un valor de 1. Debido a que este valor se usa como un multiplicador para el término de error estándar, multiplicar por 1 significa efectivamente que el intervalo de predicción en sí no cambia tanto como aumenta el tamaño de la muestra.

Resumen de la lección

Un intervalo de predicción proporciona un rango de valores que es probable que adopten las muestras posteriores, dada una población conocida de datos. Este rango o intervalo se establece en referencia a un nivel de confianza específico. Los intervalos de predicción no deben confundirse con intervalos de confianza . Los intervalos de predicción proporcionan rangos de valores probables para puntos de datos individuales y son más amplios que los intervalos de confianza. Aumentar el tamaño de la muestra de los datos tiene poco efecto sobre el rango real de valores de predicción, ya que el rango de predicción debe tener en cuenta toda la variabilidad en las muestras de datos individuales.

Articulos relacionados