Resolución de problemas mediante regresión lineal: Pasos y ejemplos

Rodrigo Ricardo Publicado el 3 noviembre, 2020 8 minutos y 24 segundos de lectura

Escenario de regresión lineal

Jake ha decidido iniciar un negocio de perritos calientes. Ha contratado a su primo, Noah, para que lo ayude con la venta de perros calientes. ¡Pero hay un problema! Noah solo puede trabajar 20 horas a la semana. Jake quiere que Noah trabaje en las horas pico de venta de hot dogs. ¿Cómo puede encontrar esta información? En esta lección, aprenderá a resolver problemas utilizando conceptos basados ​​en regresión lineal. Primero, echemos un vistazo a algunos de nuestros términos clave que serán beneficiosos en esta lección.

Términos clave

Jake tendrá que recopilar datos y utilizar un análisis de regresión para encontrar el momento óptimo para la venta de perros calientes. El análisis de regresión es el estudio de dos variables en un intento de encontrar una relación o correlación. Por ejemplo, ha habido muchos análisis de regresión sobre las horas de estudio de los estudiantes y el GPA. Los estudios han encontrado una relación entre la cantidad de horas que estudia un estudiante y su GPA general.

En otras palabras, el número de horas que estudia un estudiante es la variable independiente y el GPA es la variable dependiente. El GPA del estudiante dependerá de la cantidad de horas que estudie; por tanto, existe una relación entre las dos variables. Hablaremos más sobre esta relación, también conocida como correlación, en un minuto, pero definamos la regresión lineal a continuación.

Una línea de regresión es una línea recta que intenta predecir la relación entre dos puntos, también conocida como línea de tendencia o línea de mejor ajuste. Probablemente hayas visto esta línea anteriormente en otra clase. La regresión lineal es una predicción cuando una variable ( y ) depende de una segunda variable ( x ) basada en la ecuación de regresión de un conjunto de datos dado.

Para aclarar, puede tomar un conjunto de datos, crear un diagrama de dispersión, crear una línea de regresión y luego usar el análisis de regresión para ver si tiene una correlación. Una vez que tenga su correlación, tendrá regresión lineal. De acuerdo, eso probablemente te sonó a griego. Hablemos un poco sobre la correlación antes de ver algunos ejemplos.

Una correlación es la relación entre dos conjuntos de variables que se utilizan para describir o predecir información. Cuanto más fuerte sea la relación entre los dos conjuntos de variables, más probable será que su predicción sea precisa. Examinaremos este concepto de correlación más de cerca en otras lecciones, como Interpretación de relaciones lineales usando datos y Correlación versus causalidad. Por ahora, centrémonos en usar la línea de regresión para ayudar a resolver el dilema de ventas de hot dogs de Jake.

Usar regresión lineal

Primero, veamos los datos de las ventas de perros calientes de Jake. Jake ha estado trabajando durante las últimas semanas de 1 pm a 7 pm todos los días. Cada día, Jake ha registrado la hora y el número de ventas de hot dogs por cada hora. Eche un vistazo a este conjunto de datos para el lunes:

(1, 10) (2, 11) (3, 15) (4, 12) (5, 17) (6, 18) (7, 20)

Para establecer la relación entre la hora del día y el número de perros calientes vendidos, Jake deberá poner los datos en la fórmula y = ax + b . Probablemente hayas visto la fórmula para la forma de la intersección de la pendiente en álgebra: y = mx + b . Esta es la misma fórmula, pero en estadística, reemplazamos la m con a ; a todavía está pendiente en esta fórmula, por lo que no hay grandes cambios de los que deba preocuparse.

Para encontrar la línea de regresión para este conjunto de datos, primero coloquemos esta información en un gráfico como este:

Gráfico de datos, por ejemplo
gráfico de datos, por ejemplo

Ahora necesitamos usar la fórmula de mínimos cuadrados para encontrar nuestras variables en y = ax + b . Esta es la fórmula para encontrar la pendiente a :

Fórmula para encontrar pendiente
fórmula de pendiente para estadísticas

Lo sé, parece bastante complicado. Primero, necesitaremos un poco más de información en nuestro gráfico. Vistazo a cómo amplié la tabla para incluir x veces y e Ix al cuadrado:

Gráfico de datos ampliado, por ejemplo
gráfico ampliado, por ejemplo

Mire la primera fila de esta tabla. En la primera columna tengo 1, mi valor para la primera x en el conjunto de datos. En la segunda columna, tengo 10, mi valor para la primera y en el conjunto de datos. Bajo x veces y , tengo 10, que es el producto de la primera y segunda columna. En la última columna, debajo de x al cuadrado, tengo 1, que es el valor de la primera columna al cuadrado. Observe que cada fila de este cuadro sigue este mismo patrón.

Ahora, hemos agregado una última fila que muestra la suma de cada columna:

Gráfico de datos, por ejemplo, con la suma de cada columna.
gráfico de datos con fila adicional

Por ejemplo, la primera columna tiene todos los valores de x : 1, 2, 3, 4, 5, 6, 7. La última fila es la suma de todos esos valores: 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. Entonces, revisemos nuestra tabla; tenemos:

  1. Todos los valores de x
  2. Todos los valores de y
  3. x * y para cada par ordenado
  4. x ^ 2 para cada valor de x
  5. La suma de x , y , x * y y x ^ 2

Encontrar A

Ahora que tenemos esta información, veamos nuestra fórmula y nuestro gráfico. He rodeado los lugares de nuestra fórmula con los valores correspondientes en nuestro gráfico con círculos de colores similares:

Fórmula y datos correspondientes para pendiente
fórmula y datos correspondientes

En esta fórmula, a es igual a n veces la suma de x veces y menos la suma de x veces la suma de y todo dividido por n veces la suma de x al cuadrado menos paréntesis la suma de x final al cuadrado.

Observe que n es igual al número de pares ordenados. En este escenario, tenemos siete pares ordenados en total. Por lo tanto, nuestra fórmula se vería así:

a = (7 * 458 – 28 * 103) / (7 * 140 – (28) ^ 2), que es igual a

a = 322/196

a = 1,64

Por tanto, nuestra pendiente es 1,64.

Encontrar B y graficar

Ahora usemos nuestro gráfico para encontrar el valor de b , la intersección de nuestra línea. Una vez más, rodeé los lugares en nuestra fórmula con los valores correspondientes en nuestro gráfico con círculos de colores similares:

Fórmula y datos correspondientes para la intersección
fórmula con los datos correspondientes

Esta fórmula dice que b es igual a 1 dividido entre n por paréntesis la suma de y menos a por la suma de x fin paréntesis. Nuestra fórmula se vería así:

b = (1/7) * (103 – 1,64 * 28)

b = 8,15

Por lo tanto, nuestra intersección es 8.15. Ahora puede graficar su conjunto de datos con la línea de regresión como esta:

Gráfico de datos de ejemplo
gráfico con línea de regresión

Entonces, ¿qué le dice esta información a Jake? Bueno, la intersección nos dice que si trabajaba a 12 (que sería cero en el gráfico), es probable que venda 8,15 perros calientes. Más importante aún, la pendiente nos dice que a medida que pasa cada hora, la probabilidad de que Jake venda un hot dog aumenta en 1,64 hot dogs. La gran diferencia en este problema en comparación con la mayoría de los problemas de regresión lineal son las horas.

En este caso, usamos el eje x como cada hora en un reloj, en lugar de un valor en el tiempo. Si tuviera un turno de horas que fuera de 8 am a 6 pm, recomendaría usar el tiempo militar para representar am y pm con valores individuales y mostrar la relación entre las horas de la tarde y las de la mañana.

Resumen de la lección

Cuanto más tarde en la noche, más perros calientes venderá Jake. Querrá que Noah trabaje más tarde en las noches para sus turnos porque es muy probable que sea el momento de mayor actividad de ventas.

Recuerde, el análisis de regresión es el estudio de dos variables en un intento de encontrar una relación o correlación. Encontramos una correlación entre las últimas horas de la noche y las ventas de perros calientes. Una correlación es la relación entre dos conjuntos de variables que se utilizan para describir o predecir información. Para hacer esto, usamos la regresión lineal , que es una predicción cuando una variable ( y ) depende de una segunda variable ( x ) basada en la ecuación de regresión de un conjunto de datos dado.

Primero, tuvimos que encontrar nuestra línea de regresión y su ecuación. Una línea de regresión es una línea recta que intenta predecir la relación entre dos puntos, también conocida como línea de tendencia o línea de mejor ajuste. Primero creamos un gráfico con los siguientes valores:

  1. Todos los valores de x
  2. Todos los valores de y
  3. x * y para cada par ordenado
  4. x ^ 2 para cada valor de x
  5. La suma de x , y , x * y y x ^ 2

Luego usamos estos valores en las siguientes fórmulas para encontrar los valores de la ecuación: y = ax + b .

Fórmulas para pendiente e intersección
fórmulas para pendiente e intersección

Puede verificar su trabajo con una calculadora gráfica para encontrar la línea de regresión de un conjunto de datos. ¡Consulte nuestra lección sobre regresión lineal simple para ver cómo hacer eso!

Los resultados del aprendizaje

Mire esta lección si desea:

  • Comprender términos como análisis de regresión, correlación y regresión lineal.
  • Encuentra la recta de regresión y su ecuación a partir de un conjunto de datos.
  • Memoriza las fórmulas para encontrar la pendiente y la intersección.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador