Uso de modelos de regresión para estimación y predicción

Rodrigo Ricardo Publicado el 23 noviembre, 2020 4 minutos y 6 segundos de lectura

Modelos de regresión múltiple

Malia trabaja para una empresa que crea recubrimientos cerámicos para implantes de articulaciones metálicas. Ella está tratando de averiguar cómo varios factores afectan la resistencia del revestimiento cerámico. Ella ha determinado que la tensión a la que se romperá el revestimiento, que se mide en unidades de Pascales (Pa), se ve afectada por la cantidad de calcio en el revestimiento, el tiempo que el revestimiento se trata térmicamente y la temperatura a la que el calor se realiza el tratamiento.

Decide usar sus datos para hacer un modelo de regresión múltiple que modela cómo cada una de estas variables afecta la dureza del recubrimiento. Los modelos de regresión múltiple se utilizan a menudo para mostrar cómo varias variables independientes afectan a una sola variable dependiente.

Si S representa la resistencia del recubrimiento (medida en Pa), x representa la fracción de calcio en el recubrimiento, t representa el tiempo de tratamiento térmico (medido en segundos) y T representa la temperatura del tratamiento térmico (medida en grados Kelvin), entonces Malia puede usar sus datos para crear el siguiente modelo de regresión múltiple:

  • S (x, t, T) = 64,59 + 354 x + 1,43 t + 5,87 T 2

Estimación y predicción

Una vez que ha desarrollado un modelo de regresión múltiple a partir de sus datos, Malia puede usar el modelo para estimar qué tan duro será el recubrimiento en una variedad de condiciones. Por ejemplo, suponga que x = 0.43, t = 600 segundos y T = 390 K. En promedio, ¿cuánta tensión puede soportar el revestimiento antes de romperse?

Ella puede determinar este valor usando su modelo de regresión múltiple, ¡incluso si nunca antes había probado esta combinación específica de parámetros! Para hacer esto, simplemente usa los valores dados arriba en el modelo de regresión múltiple:

  • S (0,43, 600, 390) = 64,59 + 354 (0,43) + 1,43 (600) + 5,87 (390) 2
  • S = 893,900 Pa

¿Significa esto que la resistencia a la fractura del recubrimiento siempre será exactamente 893,900 Pa cuando se crea usando estas condiciones? ¡No! Esto es simplemente una estimación del valor medio de la resistencia a la fractura.

Si el recubrimiento se produjo realmente en estas condiciones, Malia debería esperar que la resistencia a la fractura se encuentre en algún lugar alrededor de este valor. Si hiciera el experimento una y otra vez, las resistencias de fractura medidas probablemente caerían en un rango en ambos lados de la media predicha. Para determinar el tamaño exacto de este rango, Malia podría construir un intervalo de confianza.

Intervalos de confianza mediante múltiples modelos de regresión

Un intervalo de confianza proporciona un rango de valores dentro de los cuales puede esperar encontrar la media muestral. Si construye un intervalo de confianza del 95%, esto significa que si toma muestras aleatorias de la población una y otra vez, la media muestral estará dentro del intervalo de confianza el 95% del tiempo.

Para construir un intervalo de confianza para un modelo de regresión múltiple, primero decida qué nivel de confianza desea usar. Los niveles de confianza comunes son 90%, 95% y 99%. Una vez que haya elegido el nivel de confianza apropiado, busque el estadístico t asociado con el nivel de confianza y el número de grados de libertad en el experimento. El número de grados de libertad ( df ) depende del número total de mediciones realizadas ( n ) y del número de parámetros diferentes ( k ):

  • df = nk – 1

Puede buscar la estadística t en una tabla o utilizar un software como Microsoft Excel. Además, el estadístico t, también es necesario para calcular el error estándar ( s ) de los residuos.

Finalmente, calcule el intervalo de confianza. El límite inferior del intervalo de confianza es igual a la media menos t veces s , y el IS límite superior igual a la media más t veces s .

  • Intervalo de confianza: {media – t s , media + t s }

Por ejemplo, suponga que Malia calcula que el error estándar de los residuos en su experimento es 234,6, y que el estadístico t asociado con un nivel de confianza del 95% es 1,715. Entonces, el intervalo de confianza del 95% para su experimento sería:

  • {893900 + (234,6) (1,715), 893900 – (234,6) (1,715)}
  • {893497,66 Pa, 894302,34 Pa}

Esto significa que el 95% de las veces, la verdadera resistencia a la fractura del recubrimiento estaría dentro de este rango.

Resumen de la lección

Los modelos de regresión múltiple se utilizan para mostrar cómo varias variables independientes afectan a una sola variable dependiente. Se pueden utilizar modelos de regresión múltiple para predecir el valor de la variable dependiente si se conocen las variables independientes. También puede construir un intervalo de confianza para la media predicha por el modelo. Esto le indica un rango de valores en los que puede esperar que caiga la media muestral.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador