Intervalos de confianza: diferencia media de dos muestras independientes

Publicado el 23 noviembre, 2020

Haciendo estimaciones

Joan dirige un imperio de helados. Ella sospecha que su fábrica ubicada en Eastville produce más helado por día que la de Westland, pero ¿cómo puede estar segura?

¡Las estadísticas inferenciales pueden ayudar! Esta rama de las matemáticas usa datos de una muestra para hacer estimaciones sobre los valores de una población completa. Un intervalo de confianza es un rango de valores que representa corchetes probables alrededor del parámetro de población real. Ayudemos a Joan a encontrar su intervalo de confianza en sus dos tiendas.

Muestras independientes

Joan recopiló datos de producción diaria de helados de cada fábrica durante unas semanas. Utilizará estos datos para construir un rango probable para la diferencia de producción entre las dos instalaciones.

Antes de comenzar, verifica que sus muestras sean independientes , es decir, que no se afecten entre sí. Las muestras de Joan son de hecho independientes, porque lo que sucede en Eastville no se relaciona con lo que sucede en Westland.

Un ejemplo de muestras que no son independientes son, por ejemplo, los resultados de las pruebas de matemáticas para un grupo de personas antes y después de una capacitación. Las mismas personas toman cada prueba, por lo que las muestras “antes” y “después” dependen unas de otras. Las muestras dependientes requieren un método diferente al que nos centraremos en esta lección.

La estimación puntual

Joan tiene 18 puntos de datos de Eastville y 21 de Westland. Ella comienza sus cálculos encontrando la media (comúnmente llamada promedio ) de cada muestra de datos, calculando 357 galones por día para Eastville y 345 para Westland.

Ella resta 345 de 357 para obtener 12 galones. Esta estimación inicial de la diferencia entre las dos fábricas se denomina estimación puntual .

Este es un buen comienzo, pero no puede decir definitivamente que Eastville produce 12 galones más de helado por día que Westland. Este número proviene de un solo conjunto de datos de muestra. Si tomaba otro conjunto de muestras, obtendría otro resultado. Joan necesita hacer más cálculos para encontrar un rango probable para la verdadera diferencia de producción.

Margen de error

Joan calculará un valor llamado margen de error que da cuenta de cualquier error de cálculo, luego lo sumará y lo restará de la estimación puntual para encontrar el intervalo de confianza.

Por ejemplo, digamos que un científico calculó un intervalo de confianza de (36, 40) al medir la diferencia en la frecuencia del pulso entre un grupo de personas que se había ejercitado y un grupo que no. La amplitud del intervalo de confianza es de 4 latidos por minuto. El margen de error es la mitad del ancho del intervalo, o 2 bpm. La estimación puntual está exactamente en el medio del intervalo, a 38 lpm.

intervalo de confianza

El tamaño del margen de error depende de la distribución de los datos, el tamaño de cada muestra y la confianza que desea tener Joan sobre su intervalo.

Desviación estándar y error estándar

Si los datos están muy dispersos, es más difícil precisar un intervalo. Para capturar eso, Joan calcula la desviación estándar de cada muestra, una medida común de dispersión.

Encuentra desviaciones estándar de 6,3 para Eastville y 8,6 para Westland, lo que significa que los datos de Westland eran menos consistentes que los de Eastville. En notación matemática, la letra s denota desviación estándar, con subíndices que diferencian entre los dos sitios. Al establecer Eastville como sitio 1 y Westland como sitio 2, Joan escribe s 1 = 6.3 ys 2 = 8.6.

Ahora, combina las dos desviaciones estándar (y también el tamaño de la muestra, denotado por n ) en una sola medida llamada error estándar . Aquí está la fórmula para el error estándar, con los números de Joan insertados (recuerde, n 1 = 18 yn 2 = 21).

Error estándar

El error estándar de Joan es de aproximadamente 2,39.

Valor crítico

El último paso para calcular el margen de error es aplicar un multiplicador llamado valor crítico al error estándar. El valor crítico toma en cuenta qué tan seguros queremos estar de que tenemos un buen rango de valores, medidos a través de un porcentaje llamado nivel de confianza .

Los niveles de confianza típicos son 90%, 95% y 99%. Cuanto mayor sea el nivel de confianza, más seguros estaremos de que nuestro intervalo es bueno. Desafortunadamente, a medida que aumenta el nivel de confianza, el intervalo se ensancha. Tenemos que equilibrar el nivel de confianza con la amplitud del intervalo. Joan elige un nivel de confianza del 95%, una opción muy común.

El valor crítico también tiene en cuenta los tamaños de las muestras. Cuanto mayor sea la muestra, más preciso será el resultado. Los datos de 100 días dan un resultado más preciso que los de 3 días.

Los dos tamaños de muestra se combinan en una métrica llamada grados de libertad . La fórmula para los grados de libertad es complicada, pero es aproximadamente n 1 + n 2 – 2. Juana calcula sus grados de libertad como 18 + 21 – 2 = 37.

Ahora que Joan conoce su nivel de confianza y grados de libertad, puede buscar su valor crítico en línea o en software de computadora en lo que se llama una tabla t. Joan encuentra que su valor crítico es 2.03. Ella lo multiplica por el error estándar de 2,39 para obtener el margen de error, 4,85.

Calcular el intervalo de confianza

¡Joan está lista para calcular su intervalo de confianza! Resta el margen de error, 4.85, de su estimación puntual de 12 para obtener el límite inferior, 7.15. Agrega el margen de error a 12 para obtener 16.85, el límite superior.

Luego escribe su intervalo de confianza: (7.15, 16.85). Por lo tanto, si Joan repitiera este experimento exacto muchas veces, el 95% de las veces el intervalo de confianza contendría el parámetro verdadero.

Joan ahora puede decir que tiene un 95% de confianza en que la verdadera diferencia en la producción diaria de helado entre las dos fábricas se encuentra entre 7,15 y 16,85 galones por día.

Resumen de la lección

Un intervalo de confianza es un rango de valores que representa corchetes probables alrededor del parámetro de población real. Para calcular un intervalo de confianza para la diferencia de medias de dos muestras independientes (no afectadas entre sí):

  1. Calcule la estimación puntual o la diferencia entre las medias de los dos conjuntos de datos de muestra.
  2. Calcule el margen de error , que es la mitad del ancho del intervalo de confianza. Para hacerlo, primero calcule el error estándar para capturar la dispersión de los datos. Luego, elija un nivel de confianza (95% generalmente) y calcule los grados de libertad . Utilice estos números para buscar el valor crítico en una tabla t.
  3. Multiplique el valor crítico por el error estándar para encontrar el margen de error.
  4. Reste el margen de error de la estimación puntual para obtener el límite inferior del intervalo de confianza. Agréguelo para obtener la parte superior del nivel de confianza.

¡Puntúa este artículo!