Cómo crear un análisis de regresión múltiple

Publicado el 23 noviembre, 2020 por Rodrigo Ricardo

Tantas variables

Si abriera un nuevo negocio y descubriera que sus ventas fluctuaban significativamente a diario, semanalmente o mensualmente, ¿cómo haría para determinar qué hay detrás de esas diferencias? ¿Fueron las ventas simplemente una función del número de clientes que ingresaron? ¿O vendías artículos que solo atraían a los adolescentes, que compran con más frecuencia los fines de semana o en verano? ¿Quizás sus ventas subieron y bajaron como resultado de campañas publicitarias o de ventas, o quizás todo simplemente dependió del clima ese día?

Cuando queremos comparar el efecto de una variable de entrada sobre otra variable de salida, podemos crear una regresión bivariada simple usando datos de muestra. En situaciones más complejas, la regresión múltiple se puede utilizar para analizar y predecir los efectos de varias variables independientes en una variable dependiente. Se debe tener especial cuidado al utilizar este proceso para garantizar que las suposiciones de datos y los resultados sean válidos.

La ecuación básica

La ecuación de regresión múltiple es similar a la ecuación bivariada, ampliada para dar cuenta de n variables independientes:

Y = a + b 1 X1 + b 2 X2 + b 3 X3 +… + b n Xn

Vemos que cada variable independiente, Xn, influye en la estimación de la regresión lineal general de Y, la variable dependiente. A partir de esto, también podemos calcular un único valor R cuadrado que representa la bondad del ajuste, o la proporción de la variabilidad que se explica por todas las variables independientes tomadas en conjunto. Más importante aún, también podemos analizar cada variable independiente como una entidad separada.

Inicializando los datos

Se requieren datos de muestra adecuados con el fin de derivar la ecuación de regresión múltiple. Antes de derivar la fórmula de regresión múltiple, podemos crear un diagrama de dispersión y una regresión bivariada para cada variable independiente y la variable dependiente común. Se debe confirmar cualquier dato atípico y eliminar las muestras erróneas. Por ejemplo, una venta en línea a alguien que indicó que tenía tres años no parece realista. Cualquier dato que tenga una mala correlación, identificado por un valor de R cuadrado bajo, normalmente puede excluirse del análisis multivariable posterior.

Cada variable que deseamos incluir en el análisis de regresión múltiple debe tener el mismo número de observaciones. Los valores que faltan para cualquiera de las observaciones requieren que eliminemos la observación completa del análisis. Si bien la estimación de salida será una variable continua, las variables de entrada pueden ser valores continuos u ordinales.

Creando el Análisis

El análisis de regresión se realiza resolviendo un sistema de ecuaciones simultáneas utilizando álgebra matricial o utilizando aplicaciones de software estadístico. En cualquier caso, la clave del proceso de cálculo es que utiliza una forma de control estadístico para estimar el efecto de cada variable independiente. En este proceso, cada variable se analiza de forma independiente manteniendo constantes todas las demás variables.

Como resultado de este proceso, no solo obtenemos la fórmula de predicción completa para la variable dependiente, cada variable individual también recibe su propio coeficiente de regresión estimado, así como valores estadísticos esperados como el error estándar, la prueba t, el valor p e intervalo de confianza.

Analizando los datos

La forma más obvia de usar la ecuación de regresión es hacer predicciones de los resultados esperados para varios escenarios de entrada. Para hacer esto, simplemente sustituimos los valores que probablemente se encuentren por las variables independientes y hacemos los cálculos para hacer una predicción de la salida resultante.

También queremos comparar los efectos de las variables individuales. Los coeficientes individuales representan la magnitud de la relación entre cada variable independiente y la variable dependiente. Numéricamente, esto representa el cambio esperado en la variable dependiente para cada incremento de 1 en la variable independiente.

Debido a que se deriva un valor p para cada variable, podemos analizar cuáles de las variables independientes parecen tener una correlación significativa con la variable dependiente. En términos generales, un valor p alto indica que los resultados no son estadísticamente significativos. Cuando buscamos las variables independientes que son más importantes para predecir la variable dependiente, buscamos valores p bajos, típicamente menores que .05. Por ejemplo, supongamos que vendemos tablas de snowboard en nuestra tienda. Podríamos esperar que la edad de los clientes fuera más significativa para las ventas reales que el género de los clientes. Un valor p alto para el género y un valor p bajo para la edad confirmarían nuestras expectativas.

Si hemos elegido nuestras variables correctamente y hemos muestreado los datos de forma adecuada, el resultado de un análisis de regresión múltiple suele ser mejor que ejecutar cada análisis por separado. La regresión múltiple nos permite controlar otras variables en el modelo a medida que estimamos los efectos de cada contribuyente individual.

Problemas potenciales

En algunos casos, las variables independientes que se han muestreado pueden estar realmente correlacionadas entre sí. Por ejemplo, tener más educación y recibir mayores ingresos a menudo van de la mano. La alta correlación entre dos variables independientes se denomina colinealidad . La colinealidad puede resultar en inestabilidad numérica en los cálculos y puede degradar las estimaciones de cada variable única. Si bien hay varios remedios estadísticos disponibles para tratar este problema, es posible que deseemos simplemente usar una variable como proxy de las otras variables colineales.

Por otro lado, puede producirse un error de especificación si una variable importante se deja fuera del análisis. Se puede ejecutar una prueba de error de especificación para determinar si el modelo puede estar mal especificado o si el comportamiento matemático se aproxima mejor mediante una función no lineal.

Resumen de la lección

Se puede utilizar un análisis de regresión múltiple para estimar los efectos de múltiples variables independientes en una sola variable dependiente. Cada variable independiente se puede estimar mientras se mantienen constantes todas las demás variables independientes, un proceso denominado control estadístico . El análisis de regresión múltiple se puede utilizar para hacer predicciones sobre la variable dependiente y para evaluar los efectos relativos de cada variable de entrada. Los coeficientes de cada variable independiente representan el cambio esperado en la variable dependiente cuando la variable independiente cambia en 1. La colinealidad y los errores de especificación son cuestiones que deben abordarse si degradan el cálculo.

Articulos relacionados