Covarianza y correlación: ecuaciones y ejemplos

Publicado el 23 noviembre, 2020 por Rodrigo Ricardo

¿Por qué son importantes la covarianza y la correlación?

Digamos que eres el nuevo propietario de una pequeña heladería en un pueblecito cerca de la playa. Notó que había más negocios en los meses más cálidos que en los meses más fríos. Antes de modificar su patrón de compra para que coincida con esta tendencia, debe asegurarse de que la relación sea real.

¿Cómo puede estar seguro de que la tendencia que notó es real? La covarianza y la correlación son dos medidas que pueden decirle, estadísticamente, si existe o no una relación real entre la temperatura exterior y la cantidad de clientes que tiene. De esta manera, puede tomar una decisión informada sobre su patrón de compra.

La covarianza es una medida estadística que muestra si dos variables están relacionadas midiendo cómo cambian las variables entre sí. Esto queda claro cuando desglosas la palabra. Co- como prefijo a menudo indica algún tipo de acción conjunta (como compañeros de trabajo, copropietarios, coordinar) y la varianza se refiere a variación o cambio. Entonces, la covarianza mide cómo dos cosas cambian juntas. Te dice si hay una relación entre dos cosas y en qué dirección está esa relación.

La correlación , como la covarianza, es una medida de cómo dos variables cambian entre sí, pero va un paso más allá de la covarianza, ya que la correlación indica qué tan fuerte es la relación.

Analicemos estas dos medidas estadísticas una a la vez para comprenderlas bien, asegurándonos de que usamos los datos que recopiló al buscar tendencias en su heladería.

Temperatura Numero de clientes
98 15
87 12
90 10
85 10
95 dieciséis
75 7

Tipos de covarianza

Entonces, sabemos que la covarianza es la medida de si dos variables varían (o cambian) juntas de una manera predecible. Esto podría ser una covarianza positiva , es decir, a medida que una aumenta, la otra también aumenta, o una covarianza negativa , lo que significa que a medida que una aumenta, la otra disminuye.

La fórmula de la covarianza es:

nulo

¡Vaya, parece un poco aterrador! No se preocupe. No es tan aterrador como parece.

Al recorrer esta fórmula, vemos que la covarianza de las dos variables ( x , y ) es igual a la suma de los productos de las diferencias de cada elemento y la media de sus variables, todo dividido por uno menos que el número total de elementos. en el set. El x y y con un overline (línea en la parte superior) representan las medias de cada variable.

De acuerdo, eso también fue un poco complicado. Una vez más, no es tan difícil como parece.

Primero, necesitas encontrar la media de cada variable. Por lo general, llamamos x a la primera variable mencionada , por lo que sería la temperatura, y a la segunda variable y , que sería el número de clientes en nuestro ejemplo.

Entonces, la media de x es (98 + 87 + 90 + 85 + 95 + 75) / 6 = 88,33.

La media de y es (15 + 12 + 10 + 10 + 16 + 7) / 6 = 11,67

Ahora, resta cada valor de su media respectiva y luego multiplica estos nuevos valores juntos.

nulo

El siguiente paso es sumar todos los productos, lo que arroja el valor 125,66.

El paso final es dividir por (n-1) = 6 – 1 = 5.

125,66 / 5 = 25,132

La covarianza de este conjunto de datos es 25,132. El número es positivo, por lo que podemos afirmar que las dos variables tienen una relación positiva; a medida que aumenta la temperatura, también aumenta el número de clientes en la tienda.

Lo que esto no nos dice es qué tan fuerte es esta relación. Para encontrar la fuerza, debemos continuar con la correlación.

Tipos de correlación

Para determinar la fuerza de una relación, debe utilizar la fórmula del coeficiente de correlación. Esta fórmula dará como resultado un número entre -1 y 1, siendo -1 una correlación inversa perfecta (las variables se mueven en direcciones opuestas de manera confiable y consistente), 0 indica que no hay relación entre las dos variables y 1 es una correlación positiva perfecta ( las variables se mueven de manera confiable y consistente en la misma dirección que las demás).

La formula es:

nulo

El coeficiente de correlación se representa con una r , por lo que esta fórmula establece que el coeficiente de correlación es igual a la covarianza entre las variables dividida por el producto de las desviaciones estándar de cada variable.

¿Puedes ver por qué las correlaciones son una medida más fuerte que la covarianza? Un coeficiente de correlación usa la covarianza de un conjunto y lo lleva un paso más allá. Es bueno que ya hayamos calculado la covarianza de nuestro conjunto.

Para encontrar el divisor de esta ecuación, primero tenemos que encontrar las desviaciones estándar de cada variable. Aquí está la fórmula:

nulo

A continuación, se muestra un cuadro que muestra los cálculos necesarios para encontrar los sds de estas variables.

nulo

Bien, todo lo que queda para encontrar nuestro coeficiente de correlación final es dividir la covarianza por el producto de las desviaciones estándar encontradas anteriormente.

Es decir: 25,132 / (8,14 x 3,39) = 0,912.

El valor r es bastante grande en 0.912 (casi 1), por lo que sabe que existe una relación positiva muy fuerte entre la temperatura y su número de clientes. Esta información debería ayudarlo a modificar sus patrones de compra para que coincidan con su flujo comercial.

Precaución

Recuerde que una correlación (o relación) es solo eso, una relación. No te dice por qué existe la relación. ¡La correlación no es igual a la causalidad! La temperatura por sí sola no necesariamente hace que los clientes vengan a su tienda; solo hay una tendencia confiable entre los movimientos de las dos variables.

Resumen de la lección

Tomemos un momento para revisar lo que hemos aprendido. En esta lección, aprendimos que la covarianza es una medida estadística que muestra si dos variables están relacionadas midiendo cómo cambian las variables entre sí, mientras que su prima, la correlación , es una medida de cómo cambian dos variables entre sí. , pero va un paso más allá de la covarianza en que la correlación dice qué tan fuerte es la relación

Si bien las fórmulas parecen confusas, encontrar la covarianza y la correlación de un conjunto de datos realmente solo requiere tiempo y esfuerzo para repetir los pasos para todos los conjuntos de datos. Al final, podrá saber si, en qué dirección ( positiva o negativa / inversamente ) y qué tan fuertemente están relacionadas dos variables. Con la covarianza, aprendimos que podría ser covarianza positiva , es decir, a medida que una aumenta, la otra también aumenta, o covarianza negativa , lo que significa que a medida que una aumenta, la otra disminuye. Con la correlación, aprendimos que la correlación inversa perfecta es cuando las variables se mueven en direcciones opuestas de manera confiable y consistente, y que unLa correlación positiva perfecta es cuando las variables se mueven de manera confiable y consistente en la misma dirección entre sí.

Comprender la relación entre los datos puede permitirle tomar decisiones informadas, pero recuerde que una relación no equivale a una causa, sin importar cuán fuertemente relacionadas estén las variables entre sí.

Articulos relacionados