Ajuste de curvas con modelos lineales

¿Quieres explorar más? 📂 Explorar Categorías 🔥 Tendencias 🎓 Cursos

Altura versus peso

Según nuestra intuición, el peso de una persona debería aumentar a medida que aumenta la altura de una persona. Supongamos que reunimos a cinco hombres de entre 30 y 35 años y registramos cada una de sus alturas y pesos. Los resultados se dan en la Tabla 1 a continuación.

Tabla 1: Altura y peso de cinco hombres de entre 30 y 35 años

Altura	Peso
68 72 71 66 75	147 182 175 130 200

En la Figura 1, trazamos estos puntos y, además, dibujamos varias líneas en la gráfica. Estas líneas están destinadas a ser candidatas a la línea de mejor ajuste , la que minimiza el llamado error.

Figura 1: Rojo, verde y azul son candidatos para las líneas de mejor ajuste.

Minimización: el enfoque de la suma cuadrada

Ahora definimos con precisión qué entendemos por minimización. Una línea para ajustarse a los datos está representada por la ecuación

Tema relacionado:
Investigación Científica: Mapas, modelos y tecnologías geoespaciales

donde a es un número distinto de cero y b es un número. En el conjunto de datos de altura / peso, podríamos decir que el error en el primer punto de datos es

Tema relacionado:
¿Qué es un modelo de economía sostenible?

Esta es la distancia desde el punto de datos desde el punto correspondiente en la línea. Podemos hacer esto de la misma manera con los otros cuatro puntos de datos. Ahora, algunos puntos pueden estar muy cerca de la línea, mientras que otros pueden estar bastante lejos. Por lo tanto, en lugar de centrarse solo en un punto de datos, tiene más sentido sumar estas distancias. El problema es que algunas distancias pueden ser positivas, mientras que otras pueden ser negativas y provocar un efecto de cancelación . Para evitar la cancelación, podríamos usar el valor absoluto de estas desviaciones y luego sumarlas. Por razones relacionadas con el estudio de la estadística , sumamos las distancias al cuadrado y lo definimos como el error de suma cuadrada (SSE) de la línea elegida.

dónde

Tema relacionado:
Enseñanza en Equipo: Definición, modelos y estrategias

son los n puntos de datos. Podemos usar el cálculo para minimizar el SSE, y hay un par único ( a , b ) que minimiza esta suma de cuadrados. La solución se da en el siguiente teorema.

Teorema: Minimización SSE

Supongamos que tenemos n pares de datos

y deseamos ajustar una línea dada por y = ax + b a los datos. Entonces el SSE viene dado por

y tenga en cuenta que esto es una función del par ( a , b ). SSE ( a , b ) se minimiza cuando

Además, esta solución es única y la denotamos como

La solución dada en el Teorema de minimización de SSE se conoce comúnmente como los coeficientes de mínimos cuadrados , ya que son los coeficientes que minimizan el SSE. También es conveniente definir las sumas

Entonces, en términos de estas sumas,

Ejemplo 1: Altura y peso revisados

Volviendo a los datos de altura y peso de la Tabla 1, podemos determinar los coeficientes de mínimos cuadrados utilizando las fórmulas del Teorema de minimización de SSE. En primer lugar, vamos a necesitar las medias de la muestra de la X y la Y de conjuntos de datos. Son

Entonces las sumas de productos cruzados son

Entonces, el coeficiente de pendiente de mínimos cuadrados es

y el coeficiente de intersección y de mínimos cuadrados es

La ecuación de la recta de mínimos cuadrados es

Medir qué tan bueno es el ajuste

El SSE mínimo representa la suma del error cuadrático de la línea de mejor ajuste , y no podemos ajustar los datos mejor que esto mediante el uso de una línea. El SSE mínimo para la línea de mejor ajuste viene dado precisamente por

dónde

para i = 1, 2, 3, …, n . A partir de este punto, nos referimos a la SSE como la SSE mínima. Cuanto más pequeña es la SSE (el mínimo), mejor se ajusta el conjunto de datos a una función lineal. Se puede demostrar que

Al usar este hecho, podemos descomponer la suma total de cuadrados en dos sumas de cuadrados separadas:

donde (ya hemos definido el SSE).

Escrito de forma más concisa, esto es

dónde

El lado izquierdo de (1) está relacionado con la varianza muestral habitual para un conjunto de datos. (solo difiere en un factor de 1 / ( n – 1)) Solo mide la variación dentro de los datos y en sí, y no tiene nada que ver con qué tan bien una línea puede ajustarse a los datos emparejados. A esto lo llamamos la suma total de cuadrados , y lo abreviamos como SST en consecuencia. Dado que el lado izquierdo de (1) es independiente del proceso de ajuste de mínimos cuadrados, SSE y SSR están inversamente relacionados. SSR llamamos a la suma de cuadrados debido a la regresión . Cuanto mayor sea este número, mejor será el ajuste. (O cuanto más bajo sea el SSE, mejor será el ajuste).

Motivado por (1), ahora definimos

(2) se llama coeficiente de determinación . Tenga en cuenta que, dado que SSR y SSE no son negativos,

También debido a (2), más cerca del coeficiente de determinación es a uno, más fuerte es la relación lineal entre la x y Y variables. Un coeficiente de determinación cercano a cero indica una relación lineal muy débil. Porque cuando el coeficiente de determinación es igual a cero, SSE = SST; es decir, toda la variación se explica por error. En el otro extremo, cuando el coeficiente de determinación es igual a uno, SSE = 0 y SSR = SST; es decir, toda la variación se explica por regresión.

Regresamos a los datos de altura y peso del Ejemplo 2.

Ejemplo 2: cálculo del coeficiente de determinación

Refiriéndonos a los datos de altura / peso, podemos calcular directamente la suma total de cuadrados y la suma de cuadrados del error:

Los cinco residuos son

Entonces el SSE es

Ahora usando (2), encontramos que el coeficiente de determinación es

Esto significa que existe una relación lineal muy fuerte entre la altura y el peso. La interpretación es que el 98,948% de la variación en la variable y se explica por regresión. (el resto por error)

Correlación: una segunda medida de linealidad

También podemos medir la fuerza de la relación lineal usando el coeficiente de correlación . El coeficiente de correlación se define como

Se puede demostrar que el cuadrado del coeficiente de correlación es igual al coeficiente de determinación; por tanto, esta es la razón por la que escribimos el coeficiente de determinación como una segunda potencia de r en primer lugar. En consecuencia, se sigue que

El valor absoluto del coeficiente de correlación es la misma información que el coeficiente de determinación. Por lo tanto, los valores cercanos a -1 o 1 indican una relación lineal fuerte, mientras que los valores cercanos a cero indican una relación lineal débil. Sin embargo, el coeficiente de correlación tiene la información adicional del signo de la pendiente. El coeficiente de determinación oculta esto, ya que cualquier número al cuadrado no es negativo. Tenga en cuenta que

Por lo tanto, según esa ecuación, el coeficiente de pendiente de mínimos cuadrados y el coeficiente de correlación tienen el mismo signo.

Ejemplo 3: cálculo del coeficiente de correlación

Método 1:

Como ya conocemos el coeficiente de determinación del ejemplo 2, debe ser que

El problema es que no sabemos cuál es el signo de r . En el ejemplo 1, aprendimos que la pendiente es positiva y esto a su vez significa que r es positivo. Por tanto, el coeficiente de correlación es de aproximadamente 0,99473.

Método 2:

Si no tuviéramos el lujo del trabajo anterior realizado en los Ejemplos 1 y 2, podríamos calcular el coeficiente de correlación directamente a partir de su definición dada en (3). Recuerde del Ejemplo 1 y 2, encontramos que las sumas de productos cruzados son las siguientes.

Luego, usando la fórmula (3), tenemos

Dado que el coeficiente de correlación es positivo, la altura y el peso están correlacionados positivamente . Cuando un conjunto de datos arroja un coeficiente de correlación negativo, decimos que están correlacionados negativamente . También debido a la pendiente y el coeficiente de correlación tienen el mismo signo, podemos decir si el X y Y son positiva o negativamente correlacionados mirando el gráfico de dispersión; una tendencia al alza significa una correlación positiva y una tendencia a la baja significa una correlación negativa. Las figuras 2 a 5 proporcionan gráficos de dispersión para cuatro valores diferentes de correlación.

Figura 2: CI vs. Puntaje de exámenes; r = 0,862

Figura 3: Tiempo vs. Altura: Proyectil lanzado desde una altura inicial de cero y una velocidad inicial de 9,81 metros / segundo; r = 0

Figura 4: Radio frente a circunferencia: las medidas de un círculo; r = 1

Figura 5: Millas recorridas por semana frente al tiempo de 5K (cinco kilómetros); r = -0,858

En cada uno de los gráficos de dispersión, se superpone la línea de mejor ajuste. Las figuras 2 y 5 ilustran casos intermedios de correlación positiva y negativa, respectivamente. Las figuras 3 y 4 muestran los casos extremos de r = 0 y r = 1.

Resumen de la lección

Dada una colección de datos emparejados, podemos usar el método de mínimos cuadrados para encontrar la línea de mejor ajuste . Según el teorema de minimización de SSE , hay exactamente una solución. Llamamos al par solución los coeficientes de mínimos cuadrados. En el caso de que todos los puntos de datos se encuentren en la línea de mejor ajuste, el ajuste es perfecto y SSE = 0.

El coeficiente de determinación indica qué tan fuerte es la relación lineal y necesariamente se encuentra entre cero y uno. Cuanto más cercana a uno esté esta medida, más fuerte será la relación lineal. El valor absoluto del coeficiente de correlación da la misma información que el coeficiente de determinación, ya que es simplemente la raíz cuadrada positiva de este.

El coeficiente de correlación lleva la información adicional del signo de la pendiente para la línea de mejor ajuste. Cuando la correlación es positiva, decimos que los datos están correlacionados positivamente, y cuando la correlación es negativa, decimos que los datos están correlacionados negativamente.

Twittear

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo Editor y fundador

Ajuste de curvas con modelos lineales

Altura versus peso

Tabla 1: Altura y peso de cinco hombres de entre 30 y 35 años

Figura 1: Rojo, verde y azul son candidatos para las líneas de mejor ajuste.

Minimización: el enfoque de la suma cuadrada

Teorema: Minimización SSE

Ejemplo 1: Altura y peso revisados

Medir qué tan bueno es el ajuste

Ejemplo 2: cálculo del coeficiente de determinación

Correlación: una segunda medida de linealidad

Ejemplo 3: cálculo del coeficiente de correlación

Método 1:

Método 2:

Figura 2: CI vs. Puntaje de exámenes; r = 0,862

Figura 3: Tiempo vs. Altura: Proyectil lanzado desde una altura inicial de cero y una velocidad inicial de 9,81 metros / segundo; r = 0

Figura 4: Radio frente a circunferencia: las medidas de un círculo; r = 1

Figura 5: Millas recorridas por semana frente al tiempo de 5K (cinco kilómetros); r = -0,858

Resumen de la lección

Explora más sobre este tema

Artículos relacionados