Uso de Excel para correlación, covarianza y ANOVA

Publicado el 23 noviembre, 2020

Utilice estadísticas para respaldar afirmaciones

Imagina que eres un instructor. Quiere que sus alumnos estudien para su curso, pero no está muy seguro de cómo convencerlos de que es necesario. ¿Qué podrías hacer?

Es difícil discutir con los números, por lo que es posible que desee considerar la posibilidad de confiar en las estadísticas para ayudarlo a exponer su punto.

Con esto en mente, en la próxima prueba incluirá una pregunta pidiendo a los estudiantes que documenten cuánto tiempo estudiaron para esa prueba en particular. Usando las respuestas y los puntajes de la prueba, pudo crear este cuadro.

Horas
estudiadas

Puntaje de porcentaje
280
390
3100
175
0,570
180
1,585
1sesenta y cinco
290
3100
2.585
3,588
2.578
170
0,5sesenta y cinco

Una lectura rápida de estos puntajes parece respaldar la teoría de que cuanto más estudias, mayor puntaje puedes esperar, pero eso sigue siendo solo una opinión. Se necesitarán estadísticas para influir realmente en sus estudiantes.

En esta lección aprenderá a realizar los cálculos de covarianza, correlación y ANOVA usando Microsoft Excel. Comencemos con una revisión rápida de cada uno de estos términos.

Covarianza, correlación y ANOVA

Puede recordar que la covarianza es un cálculo estadístico que da como resultado un número positivo o negativo que indica en qué dirección se mueven dos variables en relación con la otra. Las variables pueden moverse en la misma dirección (covarianza positiva) o en direcciones opuestas (covarianza negativa).

La correlación es un poco más fuerte que la covarianza porque indica qué tan fuertemente relacionadas están dos variables. Los cálculos de correlación dan como resultado un número entre -1 y 1, siendo -1 y 1 una relación absoluta (las dos variables se mueven exactamente proporcionalmente entre sí). Una correlación de 0 (o cerca de 0) indica que hay muy poca relación entre las variables.

Sin embargo, ninguno de estos le dice si una variable causa la variación en la otra. Recuerde, la correlación no es igual a la causalidad. Para determinar una causalidad significativa se requiere un ANOVA ; un ‘análisis de varianza’ entre los grupos para determinar si existe causalidad.

Todos estos cálculos son largos y propensos a errores humanos. Microsoft Excel es una poderosa herramienta analítica que le ayuda a calcular las tres pruebas de varianza de forma rápida y precisa.

Paquete de herramientas de análisis

Excel viene con códigos de función para covarianza y correlación. Sin embargo, para realizar un ANOVA, los usuarios primero deben cargar el paquete de herramientas de análisis . Este es un complemento gratuito que viene con la hoja de cálculo de Excel, pero no se activa automáticamente.

Para hacer esto, haga clic en:

  1. Archivo
  2. Opciones
  3. Complementos
  4. Paquete de análisis

La herramienta Análisis de datos se muestra en la pestaña Datos de la hoja de cálculo. Bien, ahora podemos empezar.

Calculando covarianza y correlación

El primer paso es ingresar sus datos en Excel en columnas claramente etiquetadas; cada variable debe tener una columna. Tenga cuidado, el error humano es común en este paso y puede afectar enormemente sus resultados.

Una vez ingresados ​​los datos, comienza la parte fácil. Puede utilizar un código de función o el paquete de herramientas de análisis de datos para calcular la covarianza y la correlación.

Códigos de función

El código de función para la covarianza es = covar (matriz1, matriz2) , donde las matrices son las columnas de datos para las variables individuales. No olvide que todas las funciones comienzan con un signo = y tienen las matrices separadas por una coma entre paréntesis.

De manera similar, el código de función para la correlación es = correl (matriz1, matriz2) . A continuación, se muestran los códigos de función y la información devuelta para cada uno.

nulo

Observe que las matrices indican la primera celda del grupo (como A2) y la última celda del grupo (A16) separadas por dos puntos (:). Esto se puede escribir manualmente o ingresar automáticamente resaltando el área.

Aquí vemos una covarianza positiva, lo que indica que las variables se mueven en la misma dirección. La correlación es bastante cercana a 1, lo que significa que la relación es fuerte. A medida que aumentan las horas de estudio, también aumentan los puntajes de las pruebas.

Método del paquete de herramientas

Para usar el paquete de herramientas, haga clic en Análisis de datos en la pestaña Datos y elija el cálculo deseado. Verá esta ventana emergente:

nulo

Click in the ‘Input Range’ box and then highlight the entire set of data (both columns). Next, click in the ‘Output Range’ box and then click in the cell on the spreadsheet where you wish the result to be displayed. Then click enter.

Here is the outcome for each of these using the toolpak:

nulo

The results are in chart form. Variance is calculated within each group as well as between the groups. You can see there is little variance between the hours studied but great variance between the scores earned. The correlation within each group is 1 because the variable’s movement is compared to itself.

ANOVA

The ANOVA cannot be found using a simple function code in Excel, but the toolpak method is exactly the same as the toolpak method for the other calculations: click on Data Analysis, then choose the type of ANOVA you are conducting. Enter the ‘Input’ and ‘Output’ ranges in the same way as well.

The result of this process looks like this:

nulo

In the chart, the F value comes from the data and the F crit is the F value needed to reject the null hypothesis.

The most important part of this information is the P-value, which tells you the probability that the results occur by chance. P<0.5 is considered significant causation to reject the null hypothesis. Rejecting the null hypothesis assumes that variable one causes variable two.

Aquí, el valor p es extremadamente pequeño 9.7834E-22 (notación científica). Hay prácticamente un 0% de posibilidades de que la relación vista sea por casualidad. Puede afirmar que estudiar más horas aumenta los puntajes de las pruebas.

Resumen de la lección

Microsoft Excel es una potente herramienta de análisis estadístico que permite a los usuarios calcular la covarianza, la correlación y el ANOVA de forma precisa y rápida. La covarianza y la correlación tienen códigos de función en la forma estándar del software, = covar (matriz1, matriz2) y = correl (matriz1, matriz2), pero para realizar un ANOVA, los usuarios deben agregar manualmente el paquete de herramientas de análisis , al que se accede a través de la pestaña Análisis de datos en la hoja de cálculo.

¡Puntúa este artículo!