¿Qué son las estadísticas descriptivas? – Definición y usos

¡Puntúa este artículo!

Estadística descriptiva: definición y lista

La investigación psicológica casi siempre implica recopilar algún tipo de información. Esa podría ser la frecuencia con la que una persona piensa en sexo, la frecuencia con la que come o la frecuencia con la que golpea a un muñeco Bobo. Y antes de entrar en las complicadas estadísticas sobre si un investigador pudo demostrar que A causa B y que hay una diferencia significativa entre los grupos uno y dos, necesitamos saber qué datos se están analizando. Necesitamos saber qué está tratando de estudiar un investigador para comprender las cosas más complicadas.

Las estadísticas descriptivas son métodos sumativos para representar los datos de manera sucinta. Les haré saber que fue muy difícil escribir una definición de estadística descriptiva que no incluyera la palabra “descriptiva” o “describir”. Mi maestra de sexto grado siempre nos dijo que nunca usáramos la palabra que estamos definiendo en la definición.

Aquí hay una lista de estadísticas descriptivas, y luego pasaremos a hablar más sobre ellas. Algunos de estos le resultarán muy familiares y otros pueden ser nuevos. Algunos pueden tener expresiones a las que no está acostumbrado:

  • Media
  • Mediana
  • Modo
  • Rango
  • Desviación Estándar
  • Coeficiente de variación
  • emparedado de pavo

Espere. Ese último no debería estar ahí.

Media

En estadística, la media simplemente significa la puntuación media de la muestra. Aquí es donde sumas todos tus valores y luego los divides por el número de participantes. Para exponerlo a algunos términos adicionales, suma significa simplemente sumar. Usar suma puede ser nuevo para usted si no ha tomado muchas clases de matemáticas, pero el término facilita la escritura y suena más educado.

Un ejemplo rápido sería:

Número de bocados que necesito para comerme una barra de chocolate de tamaño divertido: 4, 2, 1, 1, 4, 1, 2, 1.

La suma total es 16, lo que hace que la media sea 2. Bastante simple, ¿verdad?

La media es útil para ayudarnos a comprender el puntaje promedio de los participantes en su estudio. Nos brinda a nosotros, los lectores, una forma rápida de formular lo que es una variable típica o normal en su estudio. Esto se usa con mayor frecuencia para describir la edad promedio de los participantes, pero también podría usarse para describir los puntajes promedio en una prueba o la cantidad de años involucrados en algo.

Teniendo esto en cuenta, podemos tomar una puntuación individual y compararla con un promedio. Por ejemplo, si digo que la altura promedio de los isleños es de 5 pies y yo mido 6 pies 3, entonces sabemos que, en comparación, soy mucho más alto que el isleño promedio.

Mediana

La mediana es la puntuación media después de que las puntuaciones se hayan organizado en orden numérico. Por ejemplo, si miramos los números de comer barra de chocolate de antes: 4, 1, 1, 1, 4, 2, 2, 1, tendremos que reorganizarlos en 4, 4, 2, 2, 1, 1, 1, 1. Como puede ver, puse el número más alto primero, pero podría poner el número más bajo primero, y su mediana será la misma.

Tenemos ocho números, así que contamos hasta la mitad. El conteo obviamente funciona mejor con números impares, ya que aterriza en un solo número. Con números pares, tomará los dos números del medio y luego los promediará. Nuestros números medios son 2 y 1. Esto significa que nuestra mediana es 1,5.

La mediana es útil por razones similares a la media: proporciona al lector una comprensión de un participante o variable medida promedio o normal. La mediana, sin embargo, reduce el efecto de valores atípicos , o un punto de datos que está distante de los demás, ya sea extremadamente alto o extremadamente bajo. En nuestro ejemplo de comer dulces, si me tomara 15 bocados para comer una barra de chocolate realmente masticable y deliciosa, entonces esto sería un valor atípico. Si agrega 15 a los puntajes, nuestra nueva media sería 3.4, con nuestra mediana en 2. ¿Cuál describe mejor los datos?

Modo

El modo , definido como el valor más frecuente, es con mucho el más fácil de calcular, sobre todo si tiene puntuaciones en orden numérico. En nuestro ejemplo de masticar dulces, el número que ocurre con más frecuencia es 1. Otra forma de pensar sobre el modo es cuál es el número más común.

¿Pero a quién le importa? Bueno deberías. ¿Por qué preocuparse? Porque el ejemplo de la barra de chocolate no es muy bueno cuando intentamos tomar decisiones importantes, pero existen muchos estudios donde las descripciones individuales son importantes.

Por ejemplo, si estuviéramos viendo una escuela con problemas financieros y el tipo más común de personal es la administración, ¿qué nos dice eso? (Que como en casi todas partes del mundo, la burocracia prospera tanto que me vuelve loco). ¿O qué pasaría si fuera a ser senador y necesitara saber qué origen étnico era más común en su distrito? Entonces, hay muchas formas en que el modo puede ayudarnos a describir el mundo en el que vivimos.

Rango

El rango es simplemente un número único que representa la extensión de los datos. Aquí es donde toma el número más alto que tiene (en nuestro ejemplo de dulces es 4) y resta el número más pequeño. En este ejemplo, es 1. Esto nos da un rango total de picaduras de barra de chocolate en 3.

El rango es algo gracioso. Si bien nos dice qué tan dispersos están los datos, si desea mucha variabilidad, entonces desea un rango alto. Por ejemplo, si se está preguntando si un nuevo programa de enseñanza educa tanto a niños intelectualmente altos como bajos, debería tener una gama más amplia. Si desea poca variabilidad, como un estudio sobre personas con depresión severa, entonces desea que el rango sea relativamente pequeño. Todo depende de lo que estés mirando.

Desviación estándar y varianza

La desviación estándar es un número correspondiente a una curva de campana que describe cuán dispersos están los datos. La varianza es un valor numérico que indica qué tan dispersos están los datos. ¿Por qué están estos dos juntos? Porque la desviación estándar es la raíz cuadrada de la varianza. Brevemente, las matemáticas involucradas para calcular esto implica comparar cada puntaje con el promedio y luego resumir la distancia que tiene cada puntaje del promedio y compararlos con un puntaje estandarizado, que involucra más matemáticas de las que podemos calcular. Es complicado, lo sé.

Piénselo así: una desviación estándar y una varianza más bajas significa que todos los números están agrupados alrededor de la media. Si sus números están dispersos o si tiene un grupo de números en el borde, su desviación estándar será mayor.

La varianza se usa a menudo en otros procedimientos estadísticos que son más complicados e inferenciales de lo que se explica en esta lección. La varianza también se informa raramente en las revistas científicas porque la desviación estándar es más útil por sí misma. La desviación estándar casi siempre se informa porque cuando un lector ve la desviación estándar, comprenderá cuán dispersos están los datos.

A continuación se muestra una curva de campana distribuida normalmente, lo que generalmente significa que la mayoría de nuestras puntuaciones deben agruparse alrededor del centro con cada vez menos puntuaciones a medida que se aleja del promedio. Un ejemplo rápido sería la inteligencia. La mayoría de las personas tienen una inteligencia promedio y hay muy pocas personas que sean súper inteligentes o súper tontas.


Ejemplo de una curva de campana distribuida normalmente
imagen de una curva de campana normal

Volviendo al ejemplo de los dulces, +/- 1 desviación estándar tiene aproximadamente el 68% de los puntajes en el medio, por lo que hay una probabilidad mejor que la media de que me tome entre .4 y 3.6 bocados. A medida que empiece a moverse más lejos, la probabilidad de que una persona obtenga una puntuación es cada vez menor. Con un promedio de 2 bocados, si miras nuestra curva de campana, ¿qué probabilidad hay de que me tome 15 bocados terminar una barra de chocolate? Teniendo en cuenta mi amor por los dulces y las estadísticas que acabamos de repasar, no es muy probable.

La desviación estándar se usa a menudo porque le permite al lector saber qué tan uniformes y agrupados son los datos. Si un investigador informa una desviación estándar obscenamente alta, significa que sus participantes están en todo el mapa. Y en lugar de mirar a la población típica, es posible que hayan estado mirando ejemplos extremos. La varianza rara vez se informa porque a menudo usa estadísticas para describir lo mismo que la desviación estándar.

Resumen de la lección

Las estadísticas descriptivas son métodos sumativos para representar datos de manera sucinta. Recuerde que los valores atípicos o los puntos de datos que están distantes de otros, ya sean extremadamente altos o bajos, pueden alterar sus datos.

Las diferentes estadísticas para describir un conjunto de datos son:

  • Media : definida como la puntuación media de la muestra
  • Mediana : definida como la puntuación media después de que las puntuaciones se hayan ordenado numéricamente.
  • Modo : definido como el valor más frecuente
  • Rango : definido como un solo número que representa la extensión de los datos
  • Desviación estándar : definida como un número correspondiente a la curva de campana que describe la dispersión de los datos.
  • Varianza : definida como un valor numérico que indica qué tan dispersos están los datos

Los resultados del aprendizaje

Después de esta lección, tendrá la capacidad de:

  • Explique para qué se utilizan las estadísticas descriptivas.
  • Definir valores atípicos
  • Identificar diferentes tipos de estadísticas que describen datos.