foto perfil

Fórmulas y tipos de covarianza y correlación ¿Qué son la covarianza y la correlación?

Publicado el 8 septiembre, 2022

¿Qué son la covarianza y la correlación?

Los datos cuantitativos son datos que pueden analizarse estadísticamente para buscar tendencias entre diferentes variables. Los datos cuantitativos se refieren a medidas que se basan numéricamente. Estos tipos de datos generalmente responden preguntas como: “cuántos”, “con qué frecuencia” o “cuánto”. Una variable representa los diferentes factores o características que se pueden medir o contar.

El análisis estadístico es un método excelente para explorar matemáticamente las relaciones entre diferentes variables. Dos métodos estadísticos importantes para analizar datos incluyen la covarianza y la correlación. En términos generales, la covarianza describe la diferencia entre dos variables, mientras que la correlación analiza la relación entre dos variables.

La covarianza y la desviación estándar son fáciles de confundir, al igual que la correlación y la desviación estándar. Sin embargo, cada término (covarianza, correlación y desviación estándar) representa conceptos estadísticos distintos. La covarianza examina específicamente si un cambio en una variable produce un cambio en una segunda variable. Si bien la covarianza muestra cómo se relacionan dos variables entre sí, no muestra la fuerza de la relación entre las dos variables. Aquí es donde la correlación es importante. La correlación analiza la fuerza de la relación entre dos variables. Para calcular la correlación entre dos variables, el valor de la covarianza se divide por la desviación estándar de ambas variables. La desviación estándar es una medida de la cantidad de variación que se encuentra en un conjunto de datos.

Relación entre covarianza y correlación

Al observar más de cerca la relación entre la covarianza y la correlación, se vuelve cada vez más claro cómo se pueden usar estas dos medidas estadísticas para caracterizar las variables en la recopilación de datos o la investigación. Decidir si usar la covarianza o la correlación para analizar los datos puede parecer difícil a primera vista, ya que estas dos medidas están estrechamente relacionadas entre sí. De hecho, la correlación se calcula utilizando el valor de covarianza de dos variables. Sin embargo, debido a que en última instancia miden cosas diferentes, ambos pueden ser valiosos al examinar la relación entre las variables en un conjunto de datos.

Al calcular la covarianza y la correlación, los puntos de datos de dos variables se trazan en un sistema gráfico de coordenadas x,y o cartesianas. Esto se conoce como diagrama de dispersión. Estos puntos de datos graficados se pueden observar visualmente para cualquier posible relación positiva o negativa entre las dos variables.

Cuando dos variables se mueven en la misma dirección, esto se conoce como una relación positiva o proporcional. Esto significa que a medida que aumenta una variable, la segunda variable también aumenta en valor. El valor de covarianza para una relación proporcional es siempre un número positivo mayor que 0. Cuando dos variables se mueven en la dirección opuesta, esto se conoce como una relación negativa o inversa. En estos casos, una variable aumenta de valor, mientras que la segunda variable disminuye. El valor de covarianza para una relación inversa es un número negativo menor que 0.

Un ejemplo de diagramas de dispersión para relaciones proporcionales e inversas.

Una figura que muestra diferentes ejemplos de diagramas de dispersión con relaciones positivas o proporcionales, sin relación y relaciones negativas o inversas.

Usando el valor de covarianza para un conjunto de datos, el coeficiente de correlación se puede calcular dividiendo la covarianza por la desviación estándar. A diferencia de la covarianza, que solo mide cómo cambian dos variables entre sí, el coeficiente de correlación es una medida de la fuerza de esta relación.

Mientras que los valores de covarianza pueden ser cualquier número tanto en la dirección negativa como en la positiva, los valores del coeficiente de correlación tienen un rango de -1 a +1. Cuando el coeficiente de correlación es negativo, una vez más, el conjunto de datos indica una relación inversa. Cuanto más cerca esté este valor de -1, más fuerte será la relación inversa entre las dos variables.

Por el contrario, cuando el coeficiente de correlación es positivo, una relación proporcional caracteriza los datos. Además, cuanto más cerca esté el valor de la correlación a +1, más fuerte será la relación proporcional entre las variables x e y. Tanto para la covarianza como para la correlación, cuando los valores respectivos son iguales a 0, no existe relación entre las dos variables.

Fórmulas de covarianza y correlación

Tanto la covarianza como el coeficiente de correlación se pueden calcular utilizando diferentes fórmulas. Estas fórmulas de covarianza y correlación se examinarán con más detalle en esta sección. También se proporcionarán explicaciones adicionales para el uso y la interpretación de los resultados de cada fórmula. Cabe señalar que es una práctica común entre los investigadores y otros utilizar paquetes estadísticos basados ​​en computadora para realizar estos cálculos, en lugar de calcular los valores a mano.

Fórmula de covarianza

La fórmula para la covarianza es: 

Donde:

  • xi = valor del punto de datos x
  • x̄ = media (promedio) de x
  • yi = valor del punto de datos y
  • ȳ = media (promedio) de y
  • n-1 = número de elementos en el conjunto, menos uno

Usando esta fórmula, el valor de covarianza se puede calcular para cualquier conjunto de datos ingresando los valores de x e y para cada punto de datos, restando cada valor de la media (o promedio) de x o y, y luego dividiendo por el número total de datos valores. La covarianza calculada para cualquier conjunto de datos será un número negativo o positivo del rango de todos los valores infinitos.

Cuando la covarianza es un valor negativo menor que 0, entonces se dice que x e y tienen una relación negativa o inversa entre sí. Esto significa que a medida que x aumenta de valor, y disminuye. Por ejemplo, un valor de covarianza calculado de -38,15 significa que x e y tienen una relación inversa en la que x aumenta a medida que y disminuye en valor.

Un valor de covarianza de 0 significa que x e y no tienen relación entre sí. Finalmente, los valores de covarianza que son números positivos mayores que 0 indican una relación positiva o proporcional entre x e y. Esto significa que a medida que aumenta el valor de x, también aumenta y. Un valor de covarianza de 12,82, por ejemplo, indica una relación proporcional entre x e y, lo que significa que tanto x como y aumentan de valor.

Fórmula del coeficiente de correlación

La fórmula para calcular el coeficiente de correlación es: r = Cov (x,y)/(σx * σy), donde:

  • r = coeficiente de correlación
  • Cov(x,y) = el valor de covarianza para el conjunto de datos
  • σx = desviación estándar de x
  • σy = desviación estándar de y

Al dividir la covarianza de un conjunto de datos por las desviaciones estándar de las variables x e y, se puede calcular el coeficiente de correlación o el valor r para cualquier conjunto de datos. A diferencia de la covarianza, que puede tener un rango infinito de valores negativos y positivos, los coeficientes de correlación, también conocidos como r, solo poseen un rango de -1 a +1.

Los valores más cercanos a -1 sugieren que existe una fuerte relación inversa entre dos variables. Por ejemplo, un coeficiente de correlación de -0,98 significa que x e y tienen una fuerte relación negativa en la que y disminuye a medida que aumenta el valor de x. Una vez más, un coeficiente de correlación de 0 muestra que no existe relación entre x e y. Por el contrario, valores más cercanos a +1 sugieren una fuerte relación positiva entre dos variables. Un coeficiente de correlación de 0,93, por ejemplo, muestra que a medida que aumenta x, también aumenta el valor de y.

Tanto los fuertes coeficientes de correlación negativos como los positivos indican que las variables x e y tienen una fuerte influencia entre sí. Sin embargo, una cosa importante a tener en cuenta es que la correlación no es igual a la causalidad. El hecho de que dos variables demuestren una fuerte relación entre sí no significa que una variable sea la causa directa de la segunda variable.

Ejemplos de covarianza y correlación

En esta sección se explorarán más a fondo algunos ejemplos de estadísticas de covarianza y coeficientes de correlación.

Ejemplo 1

En un estudio, un científico analiza la covarianza entre dos variables: la temperatura exterior y el consumo de helado. La covarianza para este conjunto de datos se calcula como 35,89. Este valor significa que las dos variables se mueven en la misma dirección entre sí, de modo que cuando una sube, la otra también. Por lo tanto, a medida que aumenta la temperatura, también aumenta la cantidad de helado consumido.

Ejemplo 2

Otro estudio examina la relación entre la temperatura exterior y el uso de parkas de invierno. La covarianza se calcula como -42,67 para este conjunto de datos. Estos valores significan que las dos variables se mueven en direcciones opuestas entre sí. La interpretación de esta estadística de covarianza es que a medida que aumenta la temperatura, disminuye el uso de parkas de invierno.

Ejemplo 3

En este ejemplo, un investigador está examinando cómo la cantidad de horas estudiadas afecta las calificaciones de la clase. En el estudio, la desviación estándar para el número de horas es 6,20 y para las calificaciones es 3,6. La covarianza de x e y es 15,4. El coeficiente de correlación se puede calcular de la siguiente manera:

  • r = Cov (x,y)/(σx * σy)
  • r = 15,4 / (6,2 * 3,6) = 0,69

Un valor r positivo, o coeficiente de correlación, de 0,69 muestra una relación proporcional moderada entre las horas estudiadas y las calificaciones de clase. Esto sugiere que los estudiantes que estudian más obtendrán calificaciones más altas que los estudiantes que dedican menos horas a estudiar.

Ejemplo 4

Un estudiante quiere ver si existe una correlación entre los niveles de lluvia y la asistencia a los cines. Encuentra un coeficiente de correlación de -0,95. Debido a que este valor de r es negativo y cercano a -1, el coeficiente de correlación muestra que los niveles de lluvia y la asistencia al cine están estrechamente relacionados inversamente. Esto significa que cuanto más llueve, menos gente asiste al cine.

Ejemplo 5

Los dueños de restaurantes quieren ver si los niveles de luz afectan el tiempo que las personas comen en sus mesas. El coeficiente de correlación para este estudio es 0,998. Este valor de r sugiere una fuerte correlación positiva entre los niveles de luz y la duración de la estancia en el restaurante. Si bien algunas personas podrían concluir que la luz reducida hace que las personas coman más lentamente, el coeficiente de correlación solo muestra cómo las dos variables se relacionan entre sí en lugar de mostrar una causalidad directa.

Resumen de la lección

La covarianza mide si dos variables cambian o no en relación entre sí, mientras que la correlación indica la fuerza de esta relación. La covarianza utiliza el número de puntos de datos en un conjunto de datos, así como las medias o promedios de las variables x e y para calcular esta relación. Una vez calculada, la covarianza puede ser cualquier valor negativo o positivo dentro del rango de números infinitos. Las estadísticas de covarianza negativa muestran que a medida que aumenta el valor de x, también aumenta y, también conocida como relación negativa o inversa . Por el contrario, las estadísticas de covarianza positiva indican que tanto x como y aumentan de valor juntos, lo que también se conoce como relación positiva o proporcional.

El coeficiente de correlación se puede medir dividiendo la estadística de covarianza por la desviación estándar de las variables x e y. La desviación estándar es una medida del grado de dispersión o variación que se encuentra en un conjunto de datos. El coeficiente de correlación, también conocido como valor r , mide la fuerza de la relación entre dos variables, con valores que van de -1 a +1. Los valores que están más cerca de -1 y +1 sugieren relaciones inversas y proporcionales más fuertes entre las variables x e y respectivamente. Sin embargo, es importante tener en cuenta que la correlación no es igual a la causalidad, y que los valores de r no prueban que una variable provoque directamente que responda una segunda variable.

Articulos relacionados