Uso de gráficos de residuos en estadísticas
Imagina que quieres ver si puedes predecir la altura de una persona en función de la extensión de sus manos. Mediste el alcance de las manos y la altura de todos en tu clase en la escuela. Luego, encontró una ecuación de predicción que cree que modela mejor los datos, pero no está seguro de si el modelo que encontró que se ajusta a los datos es bueno o no. Una gráfica residual le ayudará a responder esta pregunta. Esta lección analizará la definición de un residuo, cómo hacer una gráfica de residuales y cómo usar la gráfica de residuos para saber si una ecuación de predicción es un buen ajuste para los datos.
Definición de parcela residual y residual
El residual se define como la diferencia entre la altura observada del punto de datos y el valor predicho del punto de datos utilizando una ecuación de predicción. Si el punto de datos está por encima del gráfico de la ecuación de predicción, el residual es positivo. Si el punto de datos está debajo del gráfico de la ecuación predicha, el residuo es negativo y si el punto de datos está en el gráfico de la ecuación de predicción, el residual es cero.
Cuando modela datos con una ecuación, los datos no siempre pasan, o en ocasiones nunca pasan, por todos los puntos de datos. La gráfica residual es una representación de qué tan cerca está cada punto de datos verticalmente del gráfico de la ecuación de predicción del modelo. Incluso muestra si el punto de datos está por encima o por debajo del gráfico de la ecuación de predicción del modelo que se supone que se ajusta mejor a los datos.
Un gráfico de residuos es un tipo de gráfico de dispersión donde el eje horizontal representa la variable independiente o variable de entrada de los datos, y el eje vertical representa los valores residuales. Entonces, cada punto en el diagrama de dispersión tiene las coordenadas (valor de entrada del punto de datos, valor residual del punto de datos) .
Ejemplos de parcelas residuales
Si los puntos de la gráfica residual no parecen tener ningún patrón, en otras palabras, parecen colocados aleatoriamente alrededor del eje horizontal, entonces el modelo es un buen ajuste para los datos. Un patrón en la gráfica residual puede darle una idea de lo que podría estar mal en su modelo. Por ejemplo, puede mostrar valores atípicos obvios en los datos, o que existe un patrón en los datos de modo que la predicción no se ajusta bien a los datos.
Cuadros y gráficos en importancia empresarial, tipos y ejemplos
En la siguiente figura, el gráfico de la izquierda son datos de la distancia de frenado de un automóvil frente a su velocidad. El gráfico de la izquierda también incluye el gráfico de la ecuación de predicción. El gráfico de la derecha es el gráfico residual correspondiente. Este es un ejemplo de un gráfico residual que muestra que la ecuación de predicción es un buen ajuste para los datos porque los puntos están dispersos aleatoriamente alrededor del eje horizontal y parece que no hay un patrón en los puntos. Todos los puntos del gráfico de residuos que están por encima del eje horizontal corresponden a puntos de datos que están por encima del gráfico de la ecuación de predicción. Asimismo, los puntos en el gráfico de residuos que están debajo del eje horizontal corresponden a puntos de datos que están debajo del gráfico de la ecuación de predicción.
![]() |
A continuación se muestran algunos ejemplos de gráficos de residuos donde la ecuación de predicción NO se ajusta bien a los datos. Los puntos tienen un patrón que indica que la ecuación de predicción no se ajusta bien a los datos.
![]() |
![]() |
Suma de residuos al cuadrado
Otra forma de saber si una ecuación de predicción es la que mejor se ajusta a los datos es observar la suma de los residuos al cuadrado . Si eleva al cuadrado el valor residual para cada punto de datos y luego suma todos esos valores al cuadrado, obtiene lo que se llama la suma de los residuos al cuadrado . Esta suma se puede encontrar para cualquier ecuación de predicción que crea que podría ajustarse bien a los datos. Sin embargo, la ecuación de predicción que mejor se ajuste a los datos tendrá la suma más pequeña posible para los valores residuales al cuadrado. Si la ecuación de predicción es lineal, la línea que mejor se ajusta a los datos también se llama línea de regresión de mínimos cuadrados. porque la suma de los residuos al cuadrado de esa línea tiene el valor mínimo o es más pequeña que la suma de cualquier otra línea que se esté utilizando para ajustar los datos.
Aquí hay un ejemplo de cómo puede encontrar la suma de los residuos cuadrados usando los datos a continuación y la ecuación de predicción
y = 2,5 x + 2,97
Interpolación vs. Extrapolación: definición y gráficos
![]() |
Volver a Alcance de la mano vs Altura
La gráfica residual de los datos de su levantamiento que compara la extensión de la mano con los datos de altura puede verse como la figura siguiente. Puede concluir a partir de esta gráfica residual que la ecuación de predicción que encontró que se ajustaba a los datos es buena.
![]() |
Resumen de la lección
En esta lección, aprendió que un residual es la diferencia entre la altura real del punto de datos y la altura predicha que obtendría con la ecuación de predicción. También aprendió a dibujar un diagrama de residuos dibujando un diagrama de dispersión donde el eje vertical es el valor residual y el eje horizontal es el valor de la entrada o variable independiente. Aprendió que la gráfica de residuos se usa para determinar si una ecuación de predicción se ajusta bien a los datos al ver si el patrón de los puntos parece aleatorio. También miró algunos ejemplos de gráficos de residuos que indicaron que la ecuación de predicción no se ajustaba bien a los datos. Finalmente, aprendió que cuando la ecuación de predicción es la que mejor se ajusta a los datos, entonces laLa suma de los residuos al cuadrado será menor que para cualquier otra ecuación de predicción para esos datos.
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...





