Gráfico de dispersión
Imagine que está interesado en estudiar patrones en personas con hijos menores de 10 años. Recopila datos de 25 personas que tienen al menos un hijo. Una vez que haya recopilado sus datos, introdúzcalos en una tabla.
Intenta sacar conclusiones sobre los datos de la tabla; sin embargo, se siente abrumado. Decide que una forma más fácil de analizar los datos es comparando las variables de dos en dos. Para ver cómo se relacionan las variables entre sí, crea diagramas de dispersión. Entonces, ¿qué es un diagrama de dispersión? Un diagrama de dispersión es un gráfico que se utiliza para trazar los puntos de datos de dos variables. Cada diagrama de dispersión tiene un eje horizontal (eje x ) y un eje vertical (eje y ). Se traza una variable en cada eje. Los diagramas de dispersión se componen de marcas; cada marca representa las medidas de un participante del estudio sobre las variables que se encuentran en el eje xy el eje y de la gráfica de dispersión. La mayoría de los diagramas de dispersión contienen una línea de mejor ajuste , que es una línea recta trazada a través del centro de los puntos de datos que mejor representa la tendencia de los datos. Los diagramas de dispersión proporcionan una representación visual de la correlación o relación entre las dos variables.
Tipos de correlación
Todas las correlaciones tienen dos propiedades: fuerza y dirección. La fuerza de una correlación está determinada por su valor numérico. La dirección de la correlación está determinada por si la correlación es positiva o negativa.
- Correlación positiva : Ambas variables se mueven en la misma dirección. En otras palabras, a medida que aumenta una variable, también aumenta la otra variable. A medida que una variable disminuye, la otra también disminuye.
- Es decir, los años de educación y el salario anual están correlacionados positivamente.
- Correlación negativa : las variables se mueven en direcciones opuestas. A medida que una variable aumenta, la otra variable disminuye. A medida que una variable disminuye, la otra variable aumenta.
- Es decir, las horas de sueño y las horas de vigilia están correlacionadas negativamente.
Sin correlaciones
¿Qué significa decir que dos variables no tienen correlación ? Significa que no existe una relación aparente entre las dos variables. Por ejemplo, no existe una correlación entre la talla del zapato y el salario. Esto significa que es tan probable que se obtengan puntuaciones altas en el tamaño de los zapatos con puntuaciones altas en el salario que con puntuaciones bajas en el salario.
Fuerza
La fuerza de una correlación indica qué tan fuerte es la relación entre las dos variables. La fuerza está determinada por el valor numérico de la correlación. Una correlación de 1, ya sea +1 o -1, es una correlación perfecta. En correlaciones perfectas, los puntos de datos se encuentran directamente en la línea de ajuste. Cuanto más lejos estén los datos de la línea de ajuste, más débil será la correlación. Una correlación de 0 indica que no hay correlación. Se debe tener en cuenta lo siguiente al determinar la fuerza de una correlación:
Análisis de Variaciones: Definición, importancia y aplicación práctica
- Cuanto más cercana sea una correlación positiva a +1, más fuerte es.
- Es decir, una correlación de +.87 es más fuerte que una correlación de +.42.
- Cuanto más cercana esté una correlación negativa a -1, más fuerte es.
- Es decir, una correlación de -.84 es más fuerte que una correlación de -.31.
- Al comparar una correlación positiva con una correlación negativa, solo observe el valor numérico. No considere si la correlación es positiva o negativa. La correlación con el valor numérico más alto es la más fuerte.
- Es decir, una correlación de -.80 es más fuerte que una correlación de +.55.
- Si los valores numéricos de una correlación son los mismos, entonces tienen la misma fuerza sin importar si la correlación es positiva o negativa.
- Es decir, una correlación de -.80 tiene la misma fuerza que una correlación de +.80.
Interpretaciones de diagramas de dispersión
Entonces, ¿qué podemos aprender de los diagramas de dispersión? Creemos diagramas de dispersión usando algunas de las variables de nuestra tabla. Primero comparemos la edad con el uso de Internet. Ahora pongamos esto en un diagrama de dispersión. La edad se representa en el eje y del diagrama de dispersión y el uso de Internet se representa en el eje x .
Vemos que existe una correlación negativa entre la edad y el uso de Internet. Eso significa que a medida que aumenta la edad, la cantidad de tiempo que se pasa en Internet disminuye y viceversa. ¡La dirección del diagrama de dispersión es una correlación negativa! En la esquina superior derecha de la gráfica de dispersión, vemos r = -.87. Dado que r significa la correlación, esto significa que nuestra correlación es -.87. ¿Podríamos decir que el envejecimiento provoca que los participantes del estudio utilicen menos Internet? No podemos sacar esta conclusión basándonos en nuestros datos. Es importante señalar que la correlación no es igual a la causalidad. Una correlación indica que las dos variables están relacionadas de alguna manera. No nos dice nada sobre la causa de esta relación. Para determinar si una variable causa la otra, sería necesario realizar un experimento. Ahora veamos la gráfica de dispersión de años de educación y edad al nacimiento del primer hijo. Los años de educación se trazan en el eje y del diagrama de dispersión y la edad al nacer del primer hijo se traza en el eje x .
Al observar la dirección del diagrama de dispersión, vemos que existe una correlación positiva entre las dos variables. A medida que aumentan los años de educación, también aumenta la edad a la que el participante del estudio tuvo su primer hijo. Nuevamente, no podemos decir que una variable haya causado la otra. En la esquina superior derecha de la gráfica de dispersión, vemos r = .91, lo que indica que nuestra correlación es .91. La correlación entre los años de educación y la edad al nacimiento del primer hijo (.91) es más fuerte que la correlación entre la edad y el uso de Internet (-.87). Si miramos la línea de ajuste, vemos que los puntos de datos sobre los años de educación y la edad al nacimiento del primer hijo están ligeramente más cerca de la línea de mejor ajuste que los puntos de datos sobre la edad y el diagrama de dispersión del uso de Internet. Probablemente no esperaría que haya una relación entre el peso y los meses en el trabajo actual. Veamos un diagrama de dispersión de las dos variables para ver si existe una relación.
Podemos ver que no hay ningún patrón de datos presente, por lo que falta la línea de mejor ajuste. Vemos que un aumento de peso no se asocia con un aumento o disminución de meses en el trabajo y viceversa. Existe poca o ninguna correlación entre el peso y los meses en el trabajo actual.
Resumen de la lección
Se utiliza un diagrama de dispersión para representar una correlación entre dos variables. Hay dos tipos de correlaciones: positivas y negativas. Las variables que están correlacionadas positivamente se mueven en la misma dirección, mientras que las variables que están correlacionadas negativamente se mueven en direcciones opuestas. Si no existe una relación aparente entre las dos variables, entonces no hay correlación. Los diagramas de dispersión se pueden interpretar observando la dirección de la línea de mejor ajuste y qué tan lejos están los puntos de datos de la línea de mejor ajuste.
¿Qué es el Análisis RFM? Ventajas y Desventajas
Los resultados del aprendizaje
Logre los siguientes objetivos cuando finalice la lección en video:
- Conocer los componentes de una gráfica de dispersión e identificar el propósito de usar una
- Diferenciar entre correlaciones positivas, correlaciones negativas y no correlaciones
- Determinar la fuerza de la correlación en un diagrama de dispersión
- Utilice la línea de mejor ajuste para interpretar un diagrama de dispersión
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...
