Análisis de regresión: definición y ejemplos
Un montón de datos
Siempre que recopilamos datos o información, queremos dar sentido a lo que hemos encontrado. También es posible que deseemos utilizar la información para predecir información sobre otros eventos relacionados. Todo esto es parte de las estadísticas.
Por ejemplo, digamos que recopilamos datos sobre lo felices que son las personas después de dormir tantas horas. Tenemos bastantes puntos de datos.
![]() |
Hemos representado gráficamente nuestros datos como un diagrama de dispersión porque cada punto es un punto separado. Ninguno de los puntos está relacionado con el siguiente porque cada uno es un individuo separado. ¿Cómo le damos sentido a la información dispersa? ¿Cómo podemos analizar más a fondo este gráfico para poder hacer predicciones para otras personas en función de la información que recopilamos?
Análisis de regresión
Aquí es donde entra en juego el análisis de regresión . El análisis de regresión es una forma de relacionar variables entre sí. Lo que llamamos “variables” son simplemente los bits de información que hemos tomado. Al utilizar el análisis de regresión, podemos encontrar patrones en nuestros datos. Nos permite hacer predicciones basadas en nuestros datos.
En nuestro ejemplo de sueño versus felicidad, nuestras variables son el sueño y la felicidad. Son dos variables aparentemente no relacionadas. Pero al usar el análisis de regresión, podemos ver si podemos encontrar una forma en que se relacionen entre sí. Una vez que encontremos cómo se relacionan entre sí, podemos comenzar a hacer predicciones.
Encontrar la mejor ecuación
Lo que queremos encontrar es una ecuación que se ajuste mejor a los datos que tenemos. Un modelo de análisis de regresión muy simple que podemos usar para nuestro ejemplo se llama modelo lineal , que usa una ecuación lineal simple para ajustar los datos. Recuerda que las ecuaciones lineales son aquellas que te dan una línea recta cuando se grafican. Al observar nuestros datos, vemos que podemos trazar una línea recta a través del medio de la mayoría de nuestros puntos de datos.
![]() |
Puede ver que esta línea que hemos dibujado tiene aproximadamente la mitad de los puntos por encima y la mitad de los puntos por debajo. Hemos calculado que la ecuación de esta línea es y = (10/7) x – 10/7. Podemos decir que, según nuestro análisis de regresión, nuestros datos pueden modelarse mediante la ecuación lineal y = (10/7) x – 10/7.
Ahora que tenemos un modelo para nuestros datos, podemos usar nuestro modelo para hacer predicciones sobre otros casos. Por ejemplo, digamos que alguien duerme solo 1 hora. Podemos usar nuestra fórmula y reemplazar 1 por x para encontrar que la cantidad de felicidad que alguien puede esperar tener con solo 1 hora de sueño es 0. Podemos ingresar cualquier número razonable para x para encontrar una predicción basada en el datos que recopilamos. Por supuesto, cuanto mejor sea el modelo, mejores serán las predicciones. Por eso, en el análisis de regresión, hay muchos tipos de modelos para elegir. No entraremos en los tipos en esta lección en video. Solo sepa que nuestro modelo lineal es solo un modelo muy básico. Hay modelos más complejos para adaptarse a patrones de datos más complicados.
Valores atípicos
Mientras observa los datos de nuestro ejemplo, es posible que se pregunte sobre los dos puntos del extremo derecho de nuestro gráfico que parecen ser anomalías. Parecen romper nuestro patrón. Estos pocos puntos se denominan valores atípicos , que son puntos de datos que están separados del resto. Determinar si incluir estos puntos o no también es parte del análisis de regresión. Los analistas tienen que preguntarse si estos puntos proporcionan datos valiosos que no se pueden ignorar o si son ocurrencias de cosas que suceden tan raramente que pueden ignorarse.
En nuestro caso, decidimos ignorarlos porque solo existían estos dos casos. Todos los demás datos se ajustan a nuestro patrón. Solo estos dos puntos no encajan.
Resumen de la lección
Repasemos lo que hemos aprendido ahora. Aprendimos que el análisis de regresión es una forma de relacionar variables entre sí. Las variables son otra palabra para los datos que recopilamos. El análisis de regresión implica mirar nuestros datos, graficarlos y ver si podemos encontrar un patrón. Una vez que hayamos encontrado un patrón, queremos crear una ecuación que se ajuste mejor a nuestro patrón. Un modelo muy simple de análisis de regresión que podemos usar es el modelo lineal, que usa una ecuación lineal para describir mejor el patrón. Una vez que tenemos un modelo y una ecuación, podemos usar esta ecuación para hacer predicciones sobre otras situaciones relacionadas para las que no recolectamos datos.
Al recopilar datos, es posible que se encuentre con valores atípicos , puntos de datos que están separados del resto. Estos puntos de datos no siguen el patrón del resto de los datos. Decidir si es importante mantener estos puntos atípicos o no es también parte del análisis de regresión. Si los puntos incluyen datos útiles, probablemente deberían incluirse. Si se trata de eventos aleatorios que ocurren muy raramente, entonces probablemente sea seguro ignorarlos.
Los resultados del aprendizaje
Cuando termine de ver el video, su objetivo debe ser:
- Definir análisis de regresión
- Explica por qué necesitas encontrar la mejor ecuación que se ajuste a los datos.
- Reconocer qué son los valores atípicos