Coeficiente de determinación: definición, fórmula y ejemplo

Rodrigo Ricardo Publicado el 3 noviembre, 2020 4 minutos y 27 segundos de lectura

¡Pizza!

¿Tienes una pizzería favorita? Supongamos que desea averiguar cómo las coberturas de pizza adicionales afectan el costo total de una pizza en todas las pizzerías de su ciudad. Para hacer esto, levante el teléfono y comience a llamar a las diferentes pizzerías, anotando el costo total de la pizza con uno, dos, tres, etc., aderezos en cada lugar.

Una vez que haya terminado, deberá ajustar sus datos con una ecuación y, lo que es igual de importante, averiguar si su modelo matemático para los datos es un buen ajuste.

Coeficiente de determinación derivado

En esta lección, hablaremos sobre una construcción estadística que se usa para estimar el poder predictivo de su modelo. El coeficiente de determinación denotado como R 2 grande o r 2 pequeño es una cantidad que indica qué tan bien se ajusta un modelo estadístico a un conjunto de datos. En términos matemáticos, especifica qué parte de la variación en la variable dependiente y se caracteriza por una variación en la variable independiente x .

Quizás se pregunte qué es r , ya que solo definimos r 2 . Se puede pensar en el coeficiente de correlación denotado tan grande R o poco r como una medida de la relación estadística entre x e y . Como el enfoque de esta lección es el coeficiente de determinación, recuerde que r representa el coeficiente de correlación, así de simple.

Gráfica de coeficiente de determinación

Bien, hagamos una derivación simple del coeficiente de determinación. En la imagen, se ve que empezamos con trama que contiene un conjunto de puntos, X e Y , en la que se supone que existe una relación lineal entre la X y Y variables. Tenga en cuenta que este supuesto de linealidad se hace para simplificar la derivación y que se puede utilizar un proceso similar para modelos no lineales.

Se muestra una gráfica con tres puntos de muestra. Ahora tratamos de encontrar la línea de regresión , que es la línea que mejor se ajusta a los puntos de datos. La línea en verde muestra un intento de línea de mejor ajuste.

Podemos simplificar esta línea con la ecuación y = mx + b , que es la ecuación estándar de una línea. Para calcular la suma de los errores cuadrados entre cada punto de datos y nuestra línea de mejor ajuste, realizamos el siguiente cálculo:

Cálculo de línea de registro SSE

En esta ecuación, el término línea de registro SSE representa la suma cuadrada de los errores de la línea de regresión.

Nuestro siguiente paso es averiguar en qué se diferencia el valor y de cada punto de datos del valor y medio de todos los puntos de datos. En particular, necesitamos calcular la suma de los cuadrados de estas diferencias a la derecha del signo igual, como se muestra a continuación.

Cálculo de la media y SSE

El término línea y media SSE representa la suma al cuadrado de los errores del valor y medio .

Ahora tenemos todo lo que necesitamos para calcular el coeficiente de determinación, como puede ver a continuación.

Coeficiente de cálculo de determinación

Coeficiente de determinación calculado

Hagamos un ejemplo juntos para solidificar todo lo que acabo de cubrir, ya que probablemente sea un poco confuso. Suponga que se nos da el siguiente conjunto de datos que ve en esta tabla.

Xy
703
8210
8812
93dieciséis
10521
11545

¿Cómo calculamos el coeficiente de determinación en este caso?

Podemos comenzar calculando el coeficiente de correlación usando la siguiente fórmula:

Fórmula de coeficiente

Aquí hay una tabla de datos con los valores calculados, siendo n el tamaño de muestra de 6.

n = 6

Xx 2 yy 2 xy
70490039210
82672410100820
887744121441056
938649dieciséis2561488
10511025214412205
115132254520255075
sumas:55352267107297510954

Conectando estos valores en la ecuación para la pequeña r , acabo de darle, obtenemos r = 0.92782 . Para calcular el coeficiente de determinación, todo lo que necesitamos hacer es el cuadrado r . Al hacerlo, llegamos a r 2 = 0.8609 . Ahora puede ver una representación visual de todo esto.

Gráfico de coeficiente de determinación

Ahora intente retroceder al conjunto de datos y resolver para r y r 2 usted mismo, solo por diversión y práctica.

Resumen de la lección

Ya que cubrimos bastante, creo que es hora de recapitular todo, ¿no? En esta lección hemos aprendido sobre el coeficiente de determinación en el contexto del análisis de regresión lineal. Esta cantidad, designada como R 2 grande o r 2 pequeña , indica qué tan bien se ajusta un modelo estadístico a un conjunto de datos.

Además, de recordatorio de que el coeficiente de correlación , denotada como R o R , es una medida de la relación estadística entre x y y . Para derivar el coeficiente de determinación es necesario comenzar con un conjunto de datos simple e intentar trazar la línea de mejor ajuste, observando posteriormente los errores entre la línea de regresión y cada punto de datos, así como los errores de las coordenadas y de cada punto y el valor medio de y . Podemos encontrar una expresión para el coeficiente de determinación. Además, hemos visto un ejemplo de cómo calcular el coeficiente de determinación, calculando primero el coeficiente de correlación y luego elevándolo al cuadrado.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador