Problemas de práctica del teorema de Bayes

Rodrigo Ricardo Publicado el 22 noviembre, 2020 6 minutos y 13 segundos de lectura

Fórmula y terminología

El teorema de Bayes se puede utilizar para calcular probabilidades condicionales y se expresa como p (A | B) = (p (B | A) * p (A)) / p (B).

Si p (B) no se conoce directamente, podemos usar: p (A | B) = p (B | A) * (p (A) / (p (B | A)) * p (A) + p (B | no A) * p (no A).

Bien, eso es un poco complicado, así que repasemos el significado de los términos clave.

  • p (A) = la probabilidad de que ocurra el evento A; por ejemplo, p (cara) = 0.5 para un lanzamiento de moneda justo. Si X es igual al resultado de un lanzamiento de dado de 6 lados, p (X = 1) = 1/6.
  • p (A | B) = la probabilidad de que ocurra el evento A dado que el evento B ha ocurrido.

Bien, aquí hay un ejemplo del mundo real para ayudar a aclarar las cosas. Supongamos que en una determinada ciudad llueve el 15% del tiempo. Entonces podríamos decir, en cualquier día elegido al azar, p (R) = .15. Sin embargo, en los días nublados, llueve el 75% del tiempo, por lo que la probabilidad de lluvia cuando está nublado es de 0,75.

Escribimos esto como p (R | C) = .75.

Ahora, ¿qué hay de la probabilidad de que esté nublado cuando llueve? Supongamos que raramente llueve si no está nublado, entonces p (C | R) =. 99. Tenga en cuenta que p (C | R) no es necesariamente p (R | C). En última instancia, el teorema de Bayes puede ayudarnos a calcular y comparar estas probabilidades.

Problema de práctica uno

Bien, repasemos ahora un par de problemas de práctica para ayudarnos a comprender mejor cómo usar el teorema de Bayes. Para nuestro primer problema, veremos los resultados de una prueba de cáncer. Se dice que esta prueba para cierto tipo de cáncer tiene una precisión del 99%. Por ejemplo, si una persona está enferma, dará positivo el 99% de las veces. Por tanto, podemos decir que la prueba tiene una sensibilidad del 99%. Si la persona no está enferma, dará negativo el 92% de las veces. Por tanto, podemos decir que la prueba tiene una especificidad del 92%.

Suponga que obtiene un resultado positivo para este tipo de cáncer. ¿Deberías estar preocupado? Como hemos visto, p (A | B) no es lo mismo que p (B | A). Antes de continuar, definamos los siguientes eventos:

  • Un signo más (+) indica un resultado de prueba positivo.
  • Un signo negativo (-) indica un resultado de prueba negativo.
  • Una S mayúscula indica que una persona está enferma.
  • Una H mayúscula indica que una persona no está enferma (H significa saludable).

La sensibilidad dada nos dice que p (+ | S) = .99 y la especificidad dada nos dice que p (- | H) = .92, pero necesitamos calcular p (S | +). Todavía nos falta un dato que es p (+), o qué porcentaje de la población padece de hecho esta enfermedad. Supongamos que 1/200 personas están enfermas, entonces p (+) = .005. La rareza de la enfermedad es la razón principal por la que p (S | +) es tan diferente de p (+ | S).

Entonces, sustituyamos nuestros números por las variables:

  1. p (S) = .005.
  2. p (H) = .995. Dado que todo el mundo está enfermo o no, las probabilidades de enfermedad y salud tienen que sumar 100%, o 1.
  3. p (+ | S) = .99.
  4. p (- | H) = .92, por lo tanto p (+ | H) = .08. Estos dos deben sumar 1. Si una persona está sana, dará positivo o negativo en la prueba.

Ahora, completemos la ecuación:

  1. p (S | +) = (p (+ | S) * p (S)) / ((p (+ | S) * p (S) + p (+ | H) * p (H)); recuerde que p (no S) = p (H)
  2. p (S | +) = .99 * .005 / (.99 * .005 + .08 * .995)
  3. p (S | +) = .00495 / (.00495 + .0796)
  4. p (S | +) = .00495 / .08455
  5. p (S | +) = .059
  6. p (S | +) = 6%

Sí, eso es correcto; tiene menos del 6% de probabilidad de enfermarse. ¿Porqué es eso? Bueno, sobre todo porque la enfermedad es muy rara para empezar. Aquí, el 99% del 5% de las personas que están enfermas y el 8% del 95% que están bien darán positivo. Entonces, aproximadamente el 12% dará positivo cuando menos del 1% realmente tiene la enfermedad. Ahora, en lugar de una de cada 200 personas, suponga que la tasa de enfermedad en la población es de una de cada diez personas, op (S) = 0.1.

Rehagamos nuestros cálculos con esta nueva información:

  1. p (S | +) = (.99 * .1) / (.99 * .1 + .08 * .9)
  2. p (S | +) = .099 / (.099 + .072)
  3. p (S | +) = .099 / .171
  4. p (S | +) = .579
  5. p (S | +) = 58%

Ahora, casi el 58% de las personas que dan positivo están enfermas. La probabilidad ha aumentado porque, para empezar, hay más personas enfermas en la población.

Problema de práctica dos

Para nuestro segundo problema, veremos la fabricación de widgets. Nuestros widgets se fabrican en tres fábricas: A, B y C. La proporción de widgets defectuosos de cada fábrica es la siguiente:

  • Fábrica A: .01
  • Fábrica B: .04
  • Fábrica C: .02

Las fábricas A y B producen el 30% de los dispositivos cada una, y el 40% restante proviene de la Fábrica C. Imagine que un cliente molesto devuelve un dispositivo defectuoso a nuestra empresa. Como gerente, debe calcular la probabilidad de que cada fábrica produzca un dispositivo defectuoso. Aunque tenemos tres fábricas, no dos, todavía podemos usar la forma básica del teorema de Bayes, dado que Z representa el evento de que un widget esté defectuoso.

Comenzaremos sustituyendo nuestros números por las variables:

  1. p (A) = .3
  2. p (B) = .3
  3. p (C) = .4
  4. p (Z | A) = .01
  5. p (Z | B) = .04
  6. p (Z | C) = .02

Luego completaremos la ecuación usando el teorema de Bayes, que se configurará así: p (A | Z) = (p (Z | A) * p (A)) / p (Z).

Ya sabemos que p (A) = .3 yp (Z | A) = .01, pero necesitamos encontrar p (Z), o la probabilidad general de un widget defectuoso por cada 100 widgets:

  1. La fábrica A fabricó 30 widgets y el 1% están defectuosos, por lo que 30 * 1% = 0.3 widgets defectuosos.
  2. La fábrica B fabricó 30 widgets y el 4% están defectuosos, por lo que 30 * 4% = 1.2 widgets defectuosos.
  3. La fábrica C fabricó 40 widgets y el 2% están defectuosos, por lo que 40 * 2% = 0.8 widgets defectuosos.

Al sumar el número de widgets defectuosos producidos en las tres fábricas, obtenemos un total de 2,3 widgets defectuosos de 100 producidos. Entonces p (Z) = 2.3 / 100 = .023. Cuando conectamos los números, vemos que: p (A | Z) = .01 * .30 / .023 = .130, o un 13% de probabilidad de que el dispositivo defectuoso se haya producido en la Fábrica A. Dado que p (Z) seguirá siendo el mismo, podemos completar los cálculos para las otras dos fábricas. Para la fábrica B, obtenemos:

  1. p (B | Z) = p (Z | B) * p (B) / p (Z)
  2. p (B | Z) = .04 * .30 / .023 = .522

Y para la fábrica C obtenemos:

  1. p (C | Z) = p (Z | C) * p (C) / p (Z)
  2. p (C | Z) = .02 * .40 / .023 = .348

Como resultado de nuestros cálculos, tenemos los siguientes números:

  • Fábrica A: p (A | Z) = .130
  • Fábrica B: p (B | Z) = .522
  • Fábrica C: p (C | Z) = .348

Cuando sumamos los resultados, obtenemos 1. Esto tiene sentido porque son solo tres fábricas y el producto defectuoso debe provenir de una de ellas.

Resumen de la lección

En esta lección, resolvimos dos problemas de práctica que nos mostraron cómo aplicar el teorema de Bayes , una de las fórmulas más útiles del mundo real que se utiliza para calcular la probabilidad. Vimos que podemos encontrar la probabilidad de tener una enfermedad con un resultado positivo de la prueba y la probabilidad de que una unidad defectuosa provenga de tres fábricas diferentes si conoce la tasa de fallas en cada fábrica individual. Para resolver estos problemas, usamos la siguiente fórmula: p (A | B) = (p (B | A) * p (A)) / p (B).

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador