Análisis estadístico: métodos y técnicas

Publicado el 18 septiembre, 2020

Definición de análisis estadístico

Cualquiera puede recopilar datos, pero ¿cómo los analiza para que signifique algo, para que pueda ayudarlo a tomar conclusiones o decisiones basadas en ellos? El análisis estadístico es la recopilación e interpretación de datos y se emplea en prácticamente todas las áreas. Ha sido utilizado por científicos desde la invención del método científico y hoy en día se usa típicamente en política, marketing y educación, entre muchos otros.

Hay cinco métodos principales de análisis estadístico que hacen la mayor parte del trabajo. Entremos en estos con más detalle.

El significado

En estadística, la media es la medida de centro más utilizada, también conocida como tendencia central. Hay varios tipos de medias; si no se da el tipo, se entiende que es una media aritmética. La media se conoce con frecuencia fuera de los campos estadísticos como el “promedio”.


Encontrar la media
MeanofFive

Para encontrar la media aritmética , sume los elementos del conjunto de datos y luego divida por el número de elementos. Puede ver cómo se desarrolla esto en el siguiente ejemplo:

Hallar la media: (14, 20, 26, 31, 31)

14 + 20 + 26 + 31 + 31 = 122

122/5 = 24,4

Pero veamos otro ejemplo. ¿Alguna vez recibió un examen de su maestro, vio su puntaje y se preguntó cómo le fue en comparación con el resto de la clase? La media puede ayudarte a hacer esa comparación. Si recibió un 81% en el examen y la media de la clase fue del 72%, puede sentir un poco de autosatisfacción sabiendo que lo hizo mejor que la mayoría.

Una ventaja de usar la media es que es fácil de calcular. Una desventaja es que es sensible a los valores extremos, llamados valores atípicos , en los datos. Otras formas de medir el centro son mediana, moda y rango medio.

Desviación Estándar

Antes de que se sienta demasiado engreído con su 81% en el último examen, debe darse cuenta de que es la segunda calificación más baja de la clase. Solo hay ocho estudiantes. Dos de ellos no tomaron el examen y recibieron un cero. Cinco de ellos obtuvieron un 100%. Casi todas las calificaciones de este examen fueron extremas, cero o cientos. Este escenario ilustra la necesidad de una desviación estándar.

La desviación estándar es la media de la distancia entre cada elemento de sus datos y la media de esos datos. Es la medida de variación más utilizada. La regla empírica para la desviación estándar establece que si los datos tienen una distribución que es básicamente en forma de campana, entonces el 68% de los datos caerán dentro de una desviación estándar de la media, el 95% dentro de dos desviaciones estándar y el 99.7% caerá dentro de 3 desviaciones estándar .

Regresión

Esta montaña rusa emocional en la que puede haber estado con respecto a la calificación de su último examen probablemente lo haya hecho preguntarse: ¿existe una conexión entre el tiempo de preparación y la calificación del examen? Crea un gráfico que muestra cada una de las calificaciones de su examen junto con el tiempo dedicado a la preparación para ese examen. Observa que los puntos del examen parecen sugerir una línea recta.


Línea de regresión
Línea de regresión

Cuando los datos se emparejan y luego se grafican en una cuadrícula xy , puede usar la regresión para crear una ecuación de una línea que se acercará a tantos puntos de datos como sea posible. Luego, a la línea se le asigna un coeficiente de correlación, que es una medida de qué tan bien esta línea cumple con los datos.

Los coeficientes de correlación cercanos a cero son débiles y no muestran correlación. Los coeficientes de correlación de 1, -1 o cercanos a ellos son fuertes. Estas líneas de regresión se pueden utilizar para predecir el comportamiento futuro de los datos y el valor de los datos no incluidos en el conjunto.

Prueba de tamaño de la muestra y de hipótesis

Digamos ahora que su curiosidad se centra ahora en preocupaciones más nacionales. Dado que el examen lo toman estudiantes de todo el país, querrá saber si su calificación está por encima del promedio nacional. No tiene acceso a la media de la población, por lo que debe determinar qué tan grande debe ser su muestra para que la media de la muestra sea un indicador decente de la media de la población.

En muchos casos, el tamaño de la población es demasiado grande para recopilar datos de todos los miembros de la población. Si este es el caso, el recolector de datos tendrá que depender de una muestra de la población para realizar las estadísticas inferenciales.

La determinación del tamaño de la muestra consiste en averiguar el tamaño de la muestra que se necesita para lograr una media muestral que sea razonablemente cercana a la media poblacional. El tamaño de muestra que se elija creará un intervalo de confianza alrededor de la media de la muestra. El tamaño de la muestra también determina qué tan seguro (90%, 95%, etc.) puede estar de que la media de la población se encuentra dentro del intervalo de confianza de la media de la muestra.

A menos que esté viviendo en una cueva solo, no puede pasar un día sin escuchar a alguien hacer una afirmación sobre algo. La prueba de hipótesis es el proceso de determinar si las afirmaciones tienen algún mérito.

Por ejemplo, Jason, otro estudiante de su clase (uno de los que obtuvo el 100%) afirma que su buena puntuación se debe a AlertNReady, que le ayuda a mantenerse concentrado durante el estudio. La prueba de hipótesis le permite decir si el uso de AlertNReady da como resultado puntajes de examen más altos que aquellos que no lo usan.

La suposición de Jason es la hipótesis nula (el caso asumido). Piensas que la verdadera razón, o la hipótesis alternativa, es que pasó más tiempo preparándose para la prueba. Estas hipótesis tendrían que ser probadas y rechazadas o no ser rechazadas (o apoyadas, en otras palabras).

Resumen de la lección

Repasemos brevemente lo que hemos aprendido en esta lección de estadística. El análisis estadístico es la recopilación e interpretación de datos y se emplea en prácticamente todas las áreas. Las principales técnicas de análisis estadístico son:

  • Media , también conocida como promedio : sume los elementos del conjunto de datos y luego divídalos por la cantidad de elementos.
  • Desviación estándar : la media de la distancia entre cada elemento de sus datos y la media de esos datos.
  • Líneas de regresión : una ecuación de una línea que se acercará a tantos puntos de datos como sea posible. Los coeficientes de correlación cercanos a cero son débiles y no muestran correlación; 1 o -1 son fuertes.
  • Determinación del tamaño de la muestra: averiguar el tamaño de la muestra necesario para lograr una media muestral que esté razonablemente cerca de la media de la población.
  • Prueba de hipótesis : el proceso de determinar si las afirmaciones tienen algún mérito. Una hipótesis nula es la creencia común de la causa, mientras que la alternativa es la que el investigador plantea como la razón real.

Articulos relacionados