foto perfil

Regresión de mínimos cuadrados: definición, ecuaciones y ejemplos

Publicado el 23 noviembre, 2020

Una predicción de puntaje de prueba

Fred obtiene 1, 2 y 2 en sus tres primeras pruebas. Está bastante feliz porque no estudió. Fred quiere predecir su próxima puntuación.

Ayudaremos a Fred a ajustar una ecuación lineal, una ecuación cuadrática y una ecuación exponencial a sus datos.


Datos de la prueba
Freds_quiz_scores

La ubicación de los datos en el plano xy se denomina dispersión y el “ajuste” se mide tomando cada punto de datos y elevando al cuadrado su distancia vertical a la curva de la ecuación. Sumar las distancias al cuadrado para cada punto nos da la suma del error de los cuadrados , E.

Una ecuación lineal

Una ecuación lineal tiene la forma: y = a + b x .

La distancia vertical a esta curva de ecuación es el valor y de los datos menos el valor de y dado por la ecuación. Esto se escribe: y 1 – ( a + b x 1 ). Cuadrando esta diferencia y sumándola a las contribuciones de los otros puntos:

error_linear_equation_separate_terms

Este es nuestro error de suma de cuadrados, E. Una notación de suma Σ condensa cosas.

error_linear_equation

Los subíndices i son y y x . El i = 1 debajo de Σ y n sobre el Σ significa que i va de 1 a n .

El método de regresión de mínimos cuadrados encuentra a y b haciendo que la suma de errores cuadrados, E, sea lo más pequeña posible. Regresión es otra palabra para error.

E diferenciar con respecto a una y puesto a 0.

Ecuación (1):

parcial_wrt_a

Diferenciar E con respecto a b , establecer en 0 y obtener la ecuación (2):

parcial_wrt_b

Simplifica la ecuación (1).

parcial_wrt_a_simplified

Vale, ¿qué pasó aquí? Manteniendo las partes de la derecha de la ecuación, divida por -2 y haga la suma de cada término. Esto da Σ y ia – Σ b x i = 0.

La a en Σ a se convierte en Σ (1) porque a no depende de i . Σ (1) de i = 1 an es n porque el número 1 se suma un total de n veces. Por tanto, Σ a se convierte en una n .

Σ b x i es b Σ x i porque b no depende de i .

Haga el mismo tipo de cosas para simplificar la ecuación (2).

parcial_wrt_b_simplified

Calcular sumas:

sumas

Sustituyendo sumas:

sustituyendo

Resolver dos ecuaciones y dos incógnitas produce a = 2/3 y b = 1/2.

De y = a + b x y un ajuste de mínimos cuadrados, a = 2/3 y b = 1/2. Entonces, y = 2/3 + (1/2) x .


Ecuación lineal
Straight_line_fit

El ajuste es bastante bueno. Si volvemos a la ecuación para E y sustituimos una y b valores, el error E ≅ 0,16. Se predice que la cuarta puntuación de Fred será y = 2/3 + (1/2) x = 2/3 + (1/2) 4 ≅ 2.7. ¡Incluso sin estudiar, la puntuación de Fred está mejorando! Quizás deberíamos mirar otra ecuación.

Una ecuación cuadrática

Calcule una regresión de mínimos cuadrados cuando la ecuación es una ecuación cuadrática :

Y = un + b x + c x 2 .

El error de la suma de cuadrados, E:

error_quadratic_equation

El parcial con respecto a a :

parcial_wrt_a

El parcial con respecto a b :

parcial_wrt_b

Y el parcial con respecto a c :

parcial_wrt_c

Estas ecuaciones se simplifican a:

parcial_wrt_a_simplified

parcial_wrt_b_simplified

parcial_wrt_c_simplified

La mayoría de estas sumas ya están calculadas. Todavía necesitamos:

more_sums

Sustituyendo:

sustituyendo

Estas tres ecuaciones y tres incógnitas se resuelven por un , b y c .

De y = a + b x + c x 2 y un ajuste de mínimos cuadrados, a = -1, b = 2.5 yc = -1/2. Por lo tanto, y = -1 + 2.5 x – (1/2) x 2 .


Ecuación cuadrática
cuadrático

En este caso, la curva pasa por cada punto y el error E = 0. Esto se espera cuando se ajusta una cuadrática a solo 3 puntos. ¿Cuál es la predicción del cuarto puntaje de Fred? y = -1 + 2.5 x – (1/2) x 2 = -1 + 2.5 (4) – (1/2) (4) 2 = 1. ¡Oh, no! La puntuación de Fred es más baja cuando se usa esta ecuación. Es hora de probar una ecuación más.

Una ecuación exponencial

La ecuación exponencial es y = a e b x .

Toma el logaritmo natural de ambos lados:

ln y = ln ( a e segundo x ) = ln a + ln e segundo x = ln a + segundo x .

Vamos a ln y ser Y y Ln un ser A dando Y = A + B x que es una ecuación lineal.

Por lo tanto, la E a minimizar:

error_exponential_equation

Tomando la derivada parcial con respecto a A y simplificando:

error_exponential_equation

Y la derivada parcial con respecto ab y simplificando:

error_exponential_equation

Las dos incógnitas son A y b .

Calcular sumas:

sumas

Sustituyendo:

sustituyendo

Resolviendo, obtenemos b = .347 y A = -.232. Ahora, A = ln a entonces -.232 = ln a . Por lo tanto, a = e -.232 ≅ 0.793 y y = .793 e .347 x


Ecuación exponencial
exponencial

Calculando E, encontramos E ≅ .25; no tan bueno como la ecuación lineal ni la ecuación cuadrática. ¿Y Fred? y = 0,793 e 0,347 x = 0,793 e 0,347 (4) ≅ 3,2. ¡Fred está delirantemente feliz!

Alguien debe recordarle a Fred que el error depende de la elección de la ecuación y la dispersión de los datos. Y, por supuesto, estudiar para una prueba no estaría de más.

Resumen de la lección

La dispersión se refiere a la ubicación de los datos en el plano xy . Al ajustar una ecuación y calcular la suma de los cuadrados de las distancias verticales entre los datos y la ecuación, se mide el error de suma de cuadrados . Otra palabra para error es regresión . Minimizar el error de la suma de cuadrados se denomina regresión de mínimos cuadrados . El error depende de cómo se dispersen los datos y de la elección de la ecuación. En esta lección, analizamos una ecuación lineal , una ecuación cuadrática y una ecuación exponencial .

Articulos relacionados