foto perfil

Estadística Inferencial: Definición, usos y ejemplos

Publicado el 8 abril, 2024

¿Qué es la estadística inferencial? Una definicion

La estadística es un área de las matemáticas que se ocupa de los datos obtenidos de mediciones y experimentos. La estadística se utiliza cuando no existen ecuaciones para modelar el fenómeno en cuestión. En cambio, se estudia tomando varias medidas, que luego se analizan e interpretan. Por ejemplo, se pueden utilizar las ecuaciones cinemáticas para determinar el tiempo que tarda un automóvil a velocidad constante en viajar de una ciudad a otra. Sin embargo, si el objetivo es conocer el tiempo promedio que se tarda en viajar de la ciudad A a la ciudad B en un escenario del mundo real, se debe utilizar estadística porque el tiempo depende de múltiples variables, como el número de paradas, el tráfico, etc. En este contexto, la estadística inferencial es el área de la estadística que se utiliza para llegar a conclusiones basadas en un conjunto de observaciones de una población. La inferencia puede ser para estimar un parámetro o probar una afirmación. En el ejemplo anterior, el objetivo es estimar el tiempo medio de viaje. Un ejemplo es probar si el tiempo promedio de viaje cambia cuando hace sol.

Estadística inferencial versus descriptiva

Las estadísticas se pueden dividir en dos ramas, que se centran en objetivos diferentes. En la estadística descriptiva, el objetivo es describir una población. Esto se hace con medidas como media, mediana, moda, cuartiles, varianza y desviación estándar y herramientas gráficas como el diagrama de caja, histograma, distribución de probabilidad, etc. En estadística inferencial, el objetivo es sacar conclusiones basadas en muestras tomadas. de la población; el objetivo no es describir la población sino obtener alguna información de ella. La estadística descriptiva y la inferencial comparten las mismas medidas, pero la estadística inferencial utiliza principalmente la media y la desviación estándar.

Comprender las estadísticas inferenciales

La estadística inferencial se divide en dos técnicas principales, que se superponen en cierta medida pero que, en última instancia, se utilizan para diferentes propósitos y en diferentes escenarios. Se utilizan intervalos de confianza para estimar los parámetros de la población; Proporcionan un intervalo en el que es probable que quede contenido. Las pruebas de hipótesis se utilizan para evaluar una afirmación hecha sobre la población; Esto se hace planteando dos hipótesis opuestas y utilizando una muestra tomada de la población para determinar cuál es válida.

Antes de describir el proceso de cada tipo de inferencia, es importante conocer algunos conceptos y términos esenciales para la teoría utilizada en la inferencia estadística.

  • Parámetro: una medida de la población, como la media poblacional y la desviación estándar.
  • Estadística: una estimación obtenida de una muestra, como la desviación estándar de la muestra.
  • Muestreo de datos: el proceso y las técnicas utilizadas para recopilar datos de una población.
  • Distribución muestral: la distribución de probabilidad formada a partir del proceso de muestreo que se distribuye normalmente independientemente de la distribución poblacional para poblaciones grandes.

Intervalos de confianza

En los intervalos de confianza, se toman muestras de la población para obtener un rango estimado de valores para algún parámetro poblacional. Algunos conceptos importantes utilizados en los intervalos de confianza incluyen los siguientes.

  • Estimación puntual: valor único que se utiliza para estimar un parámetro de población. La media muestral es una estimación puntual de la media poblacional.
  • Estimación de intervalo: Da un rango de valores dentro de los cuales está contenida la población. El intervalo de confianza es una estimación de intervalo.
  • Nivel de confianza: Se utiliza para determinar qué tan seguros están los investigadores del intervalo que estiman. Por ejemplo, un intervalo de confianza con un nivel de confianza del 95% significa que si realizan experimentos repetidos y construyen 100 intervalos, 95 de esos experimentos contendrán el parámetro de población real.
  • Margen de error: Determina qué tan amplio es el rango de valores del intervalo. Los intervalos de confianza amplios tienen grandes márgenes de error.
  • Valor crítico: Representa dos valores entre los que está contenido un determinado porcentaje de la distribución, según lo define el nivel de confianza. Por ejemplo, para un nivel de confianza del 95%, el valor crítico es 1,96. Eso significa que la probabilidad entre -1,96 y 1,96 en una distribución normal estándar es 0,95 o 95%.

Los intervalos de confianza se expresan como un rango de valores con la siguiente forma:

{eq}\rm Intervalo\ estimación = Punto\ estimación \pm Margen\ de\ error {/eq}

Para ilustrar el proceso, el ejemplo más sencillo es la estimación de una media poblacional. El intervalo de confianza en este caso se expresa como:

{eq}\bar x \pm ME {/eq}

Dónde,

  • {eq}\bar x {/eq} es la media muestral, el promedio calculado a partir de la muestra.
  • {eq}ME=z \ SE = z \dfrac{\sigma}{\sqrt{n}} {/eq} es el margen de error.

Y,

  • {eq}SE {/eq} es el error estándar, en este caso la desviación estándar de la media muestral.
  • {eq}n {/eq} es el tamaño de la muestra, el número de muestras tomadas.
  • {eq}z {/eq} es el valor crítico.

Evaluación de la hipótesis

El procedimiento para realizar pruebas de hipótesis es similar al de los intervalos de confianza, pero existen diferencias en la interpretación y uso de las variables. Para comprender el proceso, los siguientes conceptos son importantes.

  • Las hipótesis nula y alternativa: dos afirmaciones opuestas sobre la población. Como son mutuamente excluyentes, si uno es verdadero, el otro debe ser falso.
  • Nivel de significancia: Se utiliza en pruebas de hipótesis para determinar qué tan estricta es la prueba. Los valores más bajos indican que se necesita más evidencia para hacer valer una afirmación. Los niveles de significancia y los niveles de confianza son probabilidades complementarias.
  • Dirección de la prueba: ya sea no direccional (una prueba de dos colas) o tiene una dirección (pruebas de cola izquierda y derecha).
  • Regiones de rechazo y aceptación: Define si el nulo será rechazado o no. Si la muestra está en la región de rechazo, entonces se rechaza el nulo.
  • Valor crítico: los valores que separan la región de rechazo de la región de aceptación. Se determina utilizando el nivel de significancia.
  • Valor P: La probabilidad (asumiendo que la hipótesis nula es verdadera) de obtener valores tan extremos como los obtenidos del estadístico de prueba.

El proceso sigue algunos pasos básicos que comparten todas las pruebas, como se muestra a continuación.

Paso 1: Definición de las hipótesis nula y alternativa

La hipótesis nula es el valor actualmente aceptado como parámetro poblacional, mientras que la hipótesis alternativa es la afirmación probada. Es importante señalar que la nulidad sólo puede rechazarse o no ser rechazada, pero no aceptada.

Paso 2: recopilación de datos y determinación del nivel de importancia

Los datos deben recopilarse utilizando una técnica de muestreo de datos adecuada y con un tamaño de muestra suficiente. Los investigadores también deben determinar el nivel de significancia ({eq}\alpha {/eq}) del estudio. El valor más común es el 5%, pero también se utilizan comúnmente el 1% y el 10%.

Paso 3: Calcular la estadística de prueba

Este es el valor que compara el valor reclamado con los datos obtenidos de la muestra. Cada prueba tiene una fórmula específica para calcular la estadística de la prueba.

Paso 4: Determinar si la nula se rechaza o no

El siguiente paso es evaluar la estadística de la prueba en función del nivel de significancia de la prueba. Hay dos formas de realizar esta evaluación, como se indica a continuación.

  • Enfoque de valor crítico/estadística de prueba: si la estadística de prueba es más extrema que el valor crítico, significa que la muestra está en la región de rechazo, lo que significa que la muestra no tiene la misma distribución de probabilidad que afirma el nulo. Por tanto, se rechaza la hipótesis nula.
  • Enfoque del valor p /nivel de significancia: si el valor p es menor que el nivel de significancia, la distribución de probabilidad de la muestra está en la región de rechazo y, por lo tanto, se rechaza la hipótesis nula.

Paso 5: interpretar y llegar a una conclusión

Ahora se puede llegar a una conclusión final. Si se rechaza la nula, entonces la hipótesis alternativa es verdadera y, por tanto, la afirmación hecha por el investigador es verdadera. En caso contrario, si no se rechaza la nulidad, no hay prueba suficiente para confirmar la alternativa. Sin embargo, eso no significa que la nulidad sea cierta.

¿Para qué se utilizan las estadísticas inferenciales?

La inferencia estadística se utiliza ampliamente en diferentes áreas como estudios clínicos, ciencias sociales, agronomía, ingeniería, negocios, investigación de mercados, etc. Existen múltiples aplicaciones y tipos de intervalos de confianza y pruebas de hipótesis. Los principales tipos de intervalos de confianza se utilizan para lo siguiente.

  • Estimación de una media poblacional: este es el caso más simple cuando los investigadores quieren estimar una media, como la altura de un árbol.
  • Estimar una proporción poblacional: en este caso, los investigadores quieren saber una proporción, como el porcentaje de ciudadanos que padecen una determinada enfermedad.
  • Estimación de una desviación estándar de la población: un ejemplo es la estimación de la desviación estándar del peso de las botellas de bebidas en una línea de producción.
  • Estimar la diferencia entre dos medias independientes: en este caso, los investigadores comparan dos muestras independientes. Por ejemplo, miden la altura media de las plantas en la ubicación A y la comparan con las plantas en la ubicación B para ver si hay una diferencia.
  • Estimar la diferencia entre dos medias pareadas: En este tipo de intervalo de confianza, las muestras están relacionadas. Un ejemplo sería medir la altura media de una muestra de plantas, luego aplicarles fertilizante y luego medir su altura para comprobar si hay una diferencia.

Existen muchos tipos de pruebas de hipótesis y cada uno de ellos es adecuado para evaluar diferentes tipos de afirmaciones en condiciones específicas. Algunas de las pruebas principales incluyen las siguientes.

  • Probar la media o proporción de una población: estos son los casos más simples en los que los investigadores evalúan un valor declarado para la media o proporción.
  • Comparación de la media de dos muestras independientes o dos muestras dependientes: la prueba es similar al intervalo de confianza para dos medias.
  • Determinar si la media de más de dos muestras es la misma: Las pruebas de análisis de varianza (ANOVA) permiten probar la media de muchas muestras simultáneamente.
  • Probar si un coeficiente de correlación es válido o existe: prueba si dos variables están relacionadas.
  • Prueba de si dos variables son independientes: La prueba de independencia de chi-cuadrado prueba si dos variables son independientes.

Ejemplo de estadística inferencial

En un ejemplo en el que una empresa quiere realizar una prueba de calidad, los investigadores evalúan la proporción de productos defectuosos que salen de una línea de producción. El parámetro probado es la proporción de la población, por lo que la prueba apropiada es la prueba z de una muestra .

Pasos de la prueba de hipótesis

Los pasos seguidos por los investigadores para realizar la prueba siguen el esquema definido en la sección de prueba de hipótesis. Se describen en detalle a continuación.

Paso 1: Definición de las hipótesis nula y alternativa

Según datos anteriores, alrededor del 10% de los productos son defectuosos, pero la empresa afirma que la proporción actual de artículos defectuosos es menor. Así, las hipótesis nula y alternativa son:

{eq}H_0: \p=0.1 \\[2ex] H_a: \p<0.1 \\[2ex] {/eq}

Se debe notar que la prueba tiene cola izquierda debido al “<” en la hipótesis alternativa.

Paso 2: recopilación de datos y determinación del nivel de importancia

Los investigadores toman una muestra de 100 productos seleccionados al azar. Además, utilizan un nivel de significancia del 5% ({eq}\alpha=0.05 {/eq}).

A partir de las muestras, los investigadores encontraron que 6 de cada 100 productos están defectuosos; por tanto, la proporción muestral es:

{eq}\hat p = \dfrac{x}{n}=\dfrac{6}{100}=0,06 {/eq}

Paso 3: Calcular la estadística de prueba

A continuación, calculan el estadístico de prueba. Para la prueba de proporciones, viene dada por:

{eq}z_{stat}=\dfrac{\hat p – p}{\sqrt{\dfrac{p(1-p)}{n}} } {/eq}

Donde {eq}p {/eq} es la proporción afirmada por la hipótesis nula.

Haciendo el cálculo llegan a:

{eq}z_{stat}=\dfrac{0,06 – 0,1}{\sqrt{\dfrac{0,1(1-0,1)}{100}} } \aprox -1,333 {/eq}

Paso 4: Determinar si la nula se rechaza o no

A continuación, los investigadores utilizan el enfoque del valor p para determinar si se debe rechazar la hipótesis nula. El valor p es la probabilidad calculada como:

{eq}p\text{-valor}=P(Z < z_{stat})= P(Z <-1,333) {/eq}

Esta probabilidad se puede determinar utilizando software estadístico, calculadoras o una tabla normal. Obtienen:

{eq}p\text{-valor}= 0,09176 {/eq}

Ahora comparan el estadístico de prueba con el nivel de significancia:

{eq}p\text{-valor}= 0,09176 > \alpha =0,05 {/eq}

Dado que el valor p es mayor que el nivel de significancia, los investigadores no logran rechazar la hipótesis nula.

Paso 5: interpretar y llegar a una conclusión

Como resultado de la prueba no se puede rechazar la hipótesis nula, por lo que no hay evidencia de que la proporción de artículos defectuosos sea menor al 10%; los investigadores no pueden probar su afirmación.

Resumen de la lección

Hay dos enfoques principales de la estadística. Mientras que el objetivo de la estadística descriptiva es utilizar medidas y herramientas para describir y resumir datos, el objetivo de la estadística inferencial es sacar conclusiones sobre una población utilizando una muestra de datos tomados de esta población. Hay dos técnicas principales utilizadas en la estadística inferencial. Los intervalos de confianza se utilizan para estimar parámetros poblacionales como la media y la desviación estándar. Esto se hace tomando muestras de la población, calculando una estimación puntual, como la media muestral, y estimando el margen de error, que proporciona el rango de valores alrededor de la estimación puntual, donde probablemente se encuentre el parámetro poblacional.

La otra técnica es la prueba de hipótesis, que se utiliza para determinar si una afirmación hecha sobre una población es cierta. Funciona estableciendo dos hipótesis mutuamente excluyentes (la hipótesis nula y la alternativa) y tomando muestras de la población para decidir cuál de las hipótesis debería favorecerse. Los usos de los intervalos de confianza incluyen la estimación de una media, una desviación estándar, una proporción o una diferencia entre dos medias. Las pruebas de hipótesis tienen varias aplicaciones, como probar una o varias medias, coeficientes de correlación o si dos variables son independientes.

Articulos relacionados