Distribución F, prueba F y hipótesis de prueba: definiciones y ejemplo

¿Quieres explorar más? 📂 Explorar Categorías 🔥 Tendencias 🎓 Cursos

Variabilidad de datos

Al analizar los datos, a menudo es fundamental evaluar la varianza o la dispersión de las muestras individuales a partir de su valor medio. Por ejemplo, una cuerda de guitarra debe poder aceptar suficiente tensión para producir el tono correcto cuando se golpea. Como fabricante, podría hacer un lote de cuerdas de guitarra cuya resistencia a la tracción promedio estuviera dentro de las especificaciones. Pero si el punto de ruptura de las cuerdas individuales fuera demasiado variable, una gran cantidad de cuerdas podría romperse bajo una fuerza de tensión demasiado pequeña.

Al comparar dos muestras de datos, como dos lotes diferentes de cuerdas de guitarra fabricadas en diferentes circunstancias, se puede realizar un análisis de sus varianzas derivando un estadístico F y comparándolo con la distribución F correspondiente. La prueba de hipótesis basada en niveles de significancia apropiados se puede realizar utilizando esos valores.

La estadística F

Primero, tenga en cuenta que cuando se analizan las variaciones dentro de los datos, existen pequeñas diferencias en los métodos de cálculo que surgen al tratar con poblaciones completas o con submuestras de poblaciones. Como usualmente tratamos con datos muestreados, usaremos cálculos de muestra a lo largo de esta lección.

El estadístico F , o valor F, es un concepto bastante simple. El valor se deriva como el cociente de las variaciones entre dos muestras.

F = V 1 / V 2

Tema relacionado:
¿Qué es la Distribución Geográfica? Ejemplos

Dónde

V 1 = Varianza de la muestra 1

V 2 = Varianza de la muestra 2

Recuerde que la varianza de la muestra se mide sumando las diferencias al cuadrado de los valores individuales y el valor medio, y dividiendo por n-1 para los datos muestreados, donde n es igual al número de muestras medidas.

Tema relacionado:
¿Cómo influye la teoría de la distribución de la riqueza en la economía?

Distribuciones F

Una distribución F es una distribución de probabilidad que resulta de comparar las varianzas de dos muestras o poblaciones utilizando el estadístico F. Es la distribución de todos los posibles valores de F para una combinación específica de tamaños de muestra que se están comparando.

Al derivar un valor F individual, puede ver que el término n – 1 aparecerá tanto en el numerador como en el denominador. Este valor representa los grados de libertad en cada una de las muestras. El número de grados de libertad para las dos muestras es importante, ya que controla la forma de cada distribución F única.

Si miramos la gráfica de algunas distribuciones típicas de F, vemos que tienen las características de funciones gamma. Por lo general, están sesgados a la derecha y tienen o se acercan a 0 como valor mínimo. La única diferencia en estas gráficas de distribución F son los grados de libertad, etiquetados como d1 y d2 .

Tema relacionado:
Prueba de Bradford para Proteínas: Protocolo y métodos

Distribuciones F

Prueba de hipótesis utilizando distribuciones F

Los puntos específicos a lo largo de las distribuciones F se pueden calcular a mano o buscar en tablas, pero generalmente están disponibles en hojas de cálculo básicas y paquetes de software estadístico. Dadas estas funciones de distribución, podemos realizar pruebas de hipótesis para ayudar a evaluar la variabilidad entre dos muestras o poblaciones.

Si volvemos a nuestro ejemplo original con respecto al punto de ruptura por tensión de las cuerdas de guitarra, supongamos que como fabricante de esas cuerdas, acabamos de recibir un lote de materiales de fabricación de un nuevo proveedor. No solo podemos comparar las muestras de resistencia a la tracción promedio de lotes antiguos y nuevos de cuerdas de guitarra, sino que también podemos usar una prueba F para evaluar la variabilidad que está incrustada en estos resultados.

Dependiendo del peso. longitud y frecuencia deseada, una cuerda de guitarra típica tendrá un punto de ruptura por tracción de 350.000 a 450.000 PSI. En este caso, suponga que nuestro lote particular de cuerdas no debe romperse a menos de 350,000 PSI. Configuramos nuestras pruebas para comparar la tensión de rotura de 10 de nuestras cuerdas más antiguas y 25 de nuestras cuerdas más nuevas. Tenga en cuenta que no importa que nuestros tamaños de muestra difieran. Solo necesitamos saber que tenemos n-1 , o 9 y 24 grados de libertad, respectivamente.

De nuestras pruebas de punto de ruptura, obtenemos los siguientes valores promedio y de varianza para cada uno de los escenarios de prueba:

Muestra	Promedio	Diferencia
Muestra 1	355792.33	4606.87
Muestra 2	355074.50	4950.82

En ambos casos, el promedio de los datos parece aceptable, pero la variabilidad es mayor en el segundo caso. Podemos utilizar una prueba de hipótesis, basada en el estadístico F calculado y una distribución F conocida, para determinar si esta variabilidad es estadísticamente significativa.

Nuestra hipótesis nula será que la adición del nuevo material no causa una diferencia significativa en la variabilidad.

H 0 : V 1 = V 2

Para esta prueba, no nos importa si la variabilidad en la resistencia a la tracción hace que tengamos valores más grandes, solo nos importa si hace que tengamos valores más pequeños. En este caso, podemos utilizar una prueba de significación de límite inferior de una cola. En tales casos, rechazamos la hipótesis nula si

H a : F 1 <F (0.05,9,24)

Observe la nomenclatura del valor de distribución F que deseamos comparar. Aquí, hemos elegido específicamente un nivel de significancia del 95% y, en base a una prueba de límite inferior, usamos 1 – 0,95 o 0,05 como primer valor, seguido de 9 y 24 como el número de grados de libertad.

Siguiendo con los cálculos, nuestra estadística F de los datos es

Valor F = (4606,87 / 4950,82) = 0,93

De la distribución F al 5% de significancia y 9 y 24 grados de libertad, nuestro valor de comparación es

F (0.05,9,24) = 0.34

A partir de esto, vemos que nuestro valor observado no cae en la zona de rechazo, y podemos tener una confianza del 95% en que la diferencia observada en la variabilidad no es una función del uso de estos nuevos materiales.

Resumen de la lección

La varianza de datos se utiliza en muchos análisis estadísticos. Una estadística F es la razón de las varianzas de dos conjuntos de datos muestreados. Podemos comparar este valor con una distribución F correspondiente . Cada distribución F está controlada por los grados de libertad , n-1 en cada una de las muestras de datos. El estadístico F derivado se puede comparar con los valores y gráficos de distribución F para determinar si los valores observados se encuentran dentro o fuera del nivel de significancia deseado.

Twittear

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

definiciones distribucion ejemplo f hipotesis prueba

Rodrigo Ricardo Editor y fundador