¿Qué es la estadística descriptiva?
En el estudio de la estadística se distinguen dos ramas principales: la estadística descriptiva y la inferencial. La principal diferencia es que el descriptivo describe un conjunto de datos tal como es, y el inferencial intenta hacer predicciones, que van más allá de los valores del conjunto de datos.
¿Cuál es el propósito de las estadísticas descriptivas?
Como se mencionó anteriormente, la estadística descriptiva se refiere a varios cálculos estadísticos que se utilizan para describir un conjunto de datos tal como aparece. Ese es el significado de la estadística descriptiva, pero ¿cuál es el propósito de la estadística descriptiva? Un ejemplo común en los deportes sería el promedio de bateo. Es un valor calculado considerando cada instancia en la que un jugador toma su lugar al bate, que describe la proporción promedio de veces que el jugador anota un hit. Se trata de estadísticas descriptivas que la mayoría de la gente encuentra con bastante frecuencia. Otro ejemplo es el promedio de calificaciones. Es una estadística que convierte las calificaciones con letras en valores numéricos y calcula un promedio ponderado en función de la cantidad de créditos que vale un curso. Las estadísticas descriptivas ayudan enormemente a la investigación cuantitativa, ya que cuantifican algunos aspectos clave de los datos para realizar comparaciones directas y sacar conclusiones fáciles.
Ejemplos de estadísticas descriptivas
Con los ejemplos anteriores de promedio de bateo y promedio de calificaciones, se pueden ver algunos ejemplos más de estadísticas descriptivas. Aquí hay un ejemplo un poco más abstracto: considere el conjunto de datos {2, 5, 7, 6, 8, 9, 5, 7, 10, 4}. ¿Cuál es la media de este conjunto de datos?
La media a la que se hace referencia aquí es el promedio de un conjunto de datos y se calcula tomando la suma del conjunto de datos y dividiendo esa suma por el tamaño del conjunto de datos. En otras palabras, para un conjunto de datos que contiene n elementos,
$$\overline{x} = \frac{\sum x}{n} $$,
Valor Atípico: Definición y ejemplos de estadística
donde x es un elemento del conjunto de datos y n es el número de elementos del conjunto de datos. Esta media se conoce como{eq}\overline{x} {/eq}, que se pronuncia «barra x», y es una de las estadísticas descriptivas más comunes y útiles.
Para este conjunto de datos, la media es:
$$\overline{x} = \frac{\sum x}{n} = \frac{63}{10} = 6,3 $$
Tipos de estadísticas descriptivas
Existen dos tipos de estadística descriptiva: medidas de tendencia central, también llamadas medidas de centro, y medidas de dispersión, también llamadas medidas de variabilidad o dispersión. El primero describe los valores en torno a los cuales el conjunto de datos parece estar agrupado, mientras que el segundo describe cómo distribuir los datos. Al considerar los dos juntos, se puede determinar un valor «típico» para el conjunto de datos. También pueden saber qué tan lejos de ese valor típico es probable que esté un punto de datos.
Hay cuatro tipos de estadística descriptiva: medidas de frecuencia, medidas de tendencia central, medidas de dispersión y medidas de posición. En este artículo, la atención se centra principalmente en las medidas de tendencia central y de dispersión. Las medidas de frecuencia se refieren a cuántos elementos hay en los conjuntos de datos. Estas estadísticas incluyen frecuencia, o recuentos, y frecuencia relativa o proporciones. Las medidas de la posición incluyen el rango percentil y el rango cuartil (que es en sí mismo un subconjunto del rango percentil).
Teoría y concepto de las etapas del desarrollo cognitivo de Paiget
Ahora, echemos un vistazo más de cerca a las medidas de tendencia central y las medidas de dispersión:
Medidas de tendencia central
Las medidas de tendencia central en estadística se refieren al «medio» o «promedio» de un conjunto de datos. Hay tres medidas de tendencia central, que se utilizan en estadística:
Las tres medidas de tendencia central son:
- Media: el promedio de un conjunto de datos
- Mediana: la mitad de un conjunto de datos
- Moda: el valor que aparece con mayor frecuencia en un conjunto de datos.
Ejemplo 1. Considere el conjunto de datos {2,3,3,4,5,5,6,7,7,7,8}. Encuentre la media, la mediana y la moda.
La media del conjunto de datos es su promedio:
Resultado final en los negocios: definición y concepto
$$\overline{x} = \frac{\sum x}{n} = \frac{57}{11} \aprox 5,18 $$
La mediana del conjunto de datos es el valor en el medio. El conjunto de datos ya está en orden numérico, por lo que lo que hay que hacer es encontrar el término medio. Hay 11 elementos en el conjunto donde el medio será el punto de datos con tantos términos antes y después:
$$2,3,3,4,5, \color{rojo}5, 6,7,7,7,8 $$
El valor medio es 5, por lo que la mediana es 5. Compare esto con la media, que es 5,18. La media es un poco más alta. ¿Por qué?
Miremos el modo en busca de una pista. La moda es el valor que aparece con más frecuencia. Hay tres 7 en el conjunto de datos y nada más aparece con tanta frecuencia, por lo que la moda es 7.
Esto podría ser un factor para elevar un poco la media, ya que 7 es mayor que 5, pero incluso un valor atípico grande (es decir, un valor muy fuera del rango del resto del conjunto de datos) podría cambiar la media drásticamente.
Tenga en cuenta que la media y la mediana dependen de que los puntos de datos tengan valores numéricos, por lo que estas medidas del centro solo pueden usarse con datos cuantitativos. Por otro lado, la moda es la única medida del centro que puede utilizarse para datos cualitativos.
Medidas de dispersión
Las medidas de dispersión describen cómo se distribuye un conjunto de datos. A veces también se les llama medidas de variabilidad o medidas de propagación. La medida más simple de dispersión es el rango.
El rango de un conjunto de datos es la diferencia entre los valores más grande y más pequeño del conjunto de datos, calculado con la fórmula simple max-min.
La desviación estándar de un conjunto de datos se define como la distancia promedio desde la media de cualquier punto de datos del conjunto. Se calcula con esta fórmula:
$$s = \frac{\sum(x – \overline{x})^2}{n-1} $$
(Nota: esta fórmula, en particular, sirve para calcular la desviación estándar de un conjunto de datos de muestra. Para calcular la desviación estándar de una población, utilice n en lugar de n-1 en el denominador).
Esta fórmula, como se puede suponer, puede resultar un poco tediosa para conjuntos de datos más grandes, por lo que a menudo la desviación estándar se calcula utilizando tecnología.
Finalmente, la tercera medida de dispersión se llama varianza. La varianza se basa en la desviación estándar y su valor es {eq}s^2 {/eq}. Simplemente elevando al cuadrado la desviación estándar, se puede calcular la varianza. De manera similar, su raíz cuadrada también debe ser la desviación estándar.
Explica cómo las medidas de dispersión también pueden denominarse medidas de variabilidad. Ahora, analice el proceso de uso de medidas de dispersión con un ejemplo y detalle cada paso del proceso. Además, incluya definiciones de términos, como rango y varianza.
Ejemplo 2 Considere el conjunto de datos {2,3,3,4,5,5,6,7,7,7,8}. Encuentre el rango, la desviación estándar y la varianza.
El rango se calcula fácilmente: simplemente reste el punto de datos más pequeño del más grande: 8 – 2 = 6.
La desviación estándar, calculada utilizando la fórmula o la tecnología, es aproximadamente s = 1,99.
Finalmente, la varianza es el cuadrado de la desviación estándar: {eq}s^2 = 3,964 {/eq}.
Estos valores nos dan una mejor idea de cómo distribuir los datos. Cuanto mayor es la desviación estándar, mayor es la varianza y más disperso está un conjunto de datos.
Estadística inferencial
Además de la estadística descriptiva, el estudio de la estadística implica estadística inferencial. Esta rama de la estadística utiliza estadísticas descriptivas extraídas de datos de muestra para hacer inferencias o predicciones sobre poblaciones enteras.
Por ejemplo, supongamos que una empresa de patatas fritas afirma que sus bolsas de patatas fritas contienen una media de 8 oz. de patatas fritas. Para conocer la verdadera cantidad media de fichas en sus bolsas, se pueden utilizar estadísticas inferenciales para probar esa sospecha. Para hacerlo, hay que empezar tomando una muestra de bolsas de patatas fritas de 8 onzas y encontrar el peso medio de la muestra. Estas medias muestrales funcionarían como una estimación puntual que se puede comparar con la media poblacional declarada. Si las medias de sus muestras son lo suficientemente bajas como para cumplir ciertos criterios, tienen motivos suficientes para dudar de la afirmación del fabricante de patatas fritas. La estadística inferencial es una herramienta poderosa con muchas aplicaciones en el mundo real, pero incluso depende de la estadística descriptiva para hacer sus predicciones.
Resumen de la lección
La estadística descriptiva es un término que describe algunas cantidades ampliamente utilizadas que pueden usarse para describir conjuntos de datos. El término «estadística descriptiva» se utiliza en contrapunto a la estadística inferencial, que hace predicciones sobre poblaciones enteras no necesariamente representadas dentro del conjunto de datos.
La estadística descriptiva incluye medidas de tendencia central y medidas de dispersión.
Las medidas de tendencia central incluyen:
- La media, o promedio, calculada con la fórmula {eq}\overline{x} = \frac{\sum x}{n} {/eq}.
- La mediana o valor medio de los datos: el valor con tantos puntos de datos encima como debajo.
- La moda o el punto de datos que aparece con más frecuencia.
Las medidas de dispersión incluyen:
- El rango, calculado con max-min.
- La desviación estándar, o distancia promedio de la media, calculada con {eq}s = \frac{\sum(x – \overline{x})^2}{n-1} {/eq} para muestras, o {eq }\sigma = \frac{\sum(x – \overline{x})^2}{n} {/eq} para poblaciones. (Se recomienda el uso de tecnología como una calculadora)
- La varianza, que es el cuadrado de la desviación estándar.
Estas estadísticas descriptivas son valiosas porque describen un conjunto de datos tal como es. Pero las medidas de tendencia central describen el valor de los puntos de datos que parecen estar agrupados, mientras que las medidas de dispersión describen cómo distribuir los datos. Al utilizar estos dos tipos de medidas en conjunto, los estadísticos pueden realizar muchos cálculos más complicados, incluidos los involucrados en la estadística inferencial.
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...
