¿Qué es la distribución de probabilidad discreta? Ecuaciones y ejemplos

Publicado el 26 julio, 2024 por Rodrigo Ricardo

Distribución de probabilidad discreta

Una distribución de probabilidad discreta es la distribución de probabilidad de una variable aleatoria discreta {eq}X {/eq} a diferencia de la distribución de probabilidad de una variable aleatoria continua. En general, una variable aleatoria es una función del espacio muestral {eq}\mathcal{S} {/eq} a un subconjunto de {eq}\mathbb{R}, {/eq} los números reales. Normalmente, las variables aleatorias se indican con letras mayúsculas hacia el final del alfabeto, por ejemplo, {eq}X, Y, {/eq}, etc. El valor {eq}X(s), {/eq} donde {eq}s\in \mathcal{S}, {/eq} asumido por la variable aleatoria {eq}X {/eq} se denota por {eq}x. {/eq} Cada variable aleatoria {eq}X {/eq} divide {eq}\mathcal{S} {/eq} en conjuntos disjuntos. Además, se dice que una variable aleatoria {eq}X {/eq} es discreta si puede asumir solo un número finito o contablemente infinito de valores distintos con probabilidad positiva. Recuerde que un conjunto {eq}A {/eq} es contablemente infinito si existe una correspondencia biunívoca entre {eq}A {/eq} y {eq}\mathbb{N}, {/eq} el natural números. Es importante destacar que los intervalos de números reales sonno contable. Más precisamente, una variable aleatoria {eq}X {/eq} es discreta si existe una secuencia finita o numerable {eq}x_{1},x_{2}, … {/eq} de números reales distintos y una secuencia correspondiente {eq}p_{1}, p_{2}, … {/eq} de números reales no negativos tales que $$P(X=x_{i})=p_{i} $$ para todo {eq }i {/eq} y $$\sum{p_{i}}=1. $$ En una terminología menos formal, se mide una variable aleatoria continua mientras que se cuenta una variable aleatoria discreta . Como regla general, si las probabilidades (como porcentajes) se pueden trazar en el eje {eq}y {/eq} de un histograma y la suma de todas las probabilidades es {eq}1 (100 \%), {/eq } entonces es una distribución de probabilidad. La suma de todas las probabilidades en una distribución de probabilidad debe ser igual a {eq}1 {/eq} porque, bueno,algo tiene que pasar Si la suma de todas las probabilidades fuera menor que uno, algunos resultados posibles no se tendrían en cuenta. Si la suma de todas las probabilidades era mayor que uno, se cometieron algunos errores al recopilar datos o al calcular las probabilidades porque algo no puede ocurrir más del {eq}100\% {/eq} del tiempo.

Tablas de distribución de probabilidad discreta

Dos tablas resumen la relación entre los valores discretos de una ocurrencia particular y la distribución de probabilidad de las ocurrencias:

Xx1x2x3x4x5x6
nortea1a2a3a4a5a6

y

Xx1x2x3x4x5x6
PAGSp1p2p3p4p5p6

donde {eq}x1, x2, … {/eq} son instancias de la variable aleatoria {eq}X, {/eq} {eq}a1, a2, … {/eq} son números enteros no negativos que cuentan número de ocurrencias de {eq}x1, x2, …, {/eq} y {eq}p1, p2, … {/eq} son probabilidades que suman {eq}1. {/eq}

Ejemplo de distribución de probabilidad discreta

Considere el siguiente ejemplo de distribución de probabilidad discreta . En este ejemplo, se midieron los tamaños de mil hogares en una comunidad en particular. A los efectos de este ejemplo, suponga que la ciudad consta precisamente de mil hogares, es decir, mil hogares es toda la población, no una muestra de la población. Dado que el número de personas que viven en un hogar en particular es un número entero no negativo, esta es una variable aleatoria discreta. La siguiente tabla resume los datos recopilados:

Tamaño del hogar1234567
Contar272334161130622912

Suponga que no existen hogares con ocho o más personas en este pueblo. Observe que el conteo concuerda con el hecho de que se contaron mil hogares: $$272 + 334 + 161 + 130 + 62 + 29 + 12 = 1000. $$ Estos datos se pueden convertir fácilmente en una tabla de distribución de probabilidad discreta de la siguiente manera:

Tamaño del hogar1234567
Probabilidad.272.334.161.13.062.029.012

Por lo general, los datos contenidos en la segunda tabla se mostrarán como un histograma para atraer la intuición geométrica y espacial de las personas.

Cómo encontrar la media de una distribución de probabilidad

La media de una distribución de probabilidad es el valor esperado de la variable aleatoria discreta {eq}X. {/eq} El valor esperado, como la importancia, es un nombre poco apropiado. El valor esperado de {eq}X {/eq} no es simplemente el valor que uno esperaría que tomara {eq}X {/eq} cuando se observa, sino más bien un valor promedio de {eq}X {/eq} sobre muchas observaciones. ¡A menudo, el valor esperado de una variable aleatoria discreta será un valor que la variable aleatoria ni siquiera puede tomar! Para definir formalmente el valor esperado, primero se debe definir la función de masa de probabilidad (PMF). Si {eq}X {/eq} es una variable aleatoria discreta, la función {eq}f {/eq} dada por $$f(x)=P(X=x) $$ para cada {eq}x {/eq} se dice que es la función de masa de probabilidad de {eq}X. {/eq} Una función de valor real {eq}f(x) {/eq} es una función de masa de probabilidad válida si, y solo si, $$0\leq{f(x)}\hspace{.5cm}\textrm{and}\hspace{.5cm}\sum_{x\in{X}}f(x)=1. $$ La función de masa de probabilidad no debe confundirse con la función de distribución acumulativa (CDF) definida de la siguiente manera: $$F(x)=P(X\leq{x})=\sum_{t\leq{x}} f(t), $$ donde {eq}f(t)=P(X=t). {/eq} El valor esperado de {eq}X, {/eq} escrito {eq}E(X) {/eq} o {eq}\mu, {/eq} está definido por $$E(X)= \mu=\sum_{x\in{X}}xf(x). $$ El valor esperado es precisamente la media de la distribución de probabilidad cuando {eq}X {/eq} es discreto. El concepto de una función de masa de probabilidad y el valor esperado tendrán más sentido con un ejemplo concreto, así que considere los datos del tamaño del hogar de antes: $$F(x)=P(X\leq{x})=\sum_{t\leq{x}}f(t), $$ donde {eq}f(t)=P(X=t). {/eq} El valor esperado de {eq}X, {/eq} escrito {eq}E(X) {/eq} o {eq}\mu, {/eq} está definido por $$E(X)= \mu=\sum_{x\in{X}}xf(x). $$ El valor esperado es precisamente la media de la distribución de probabilidad cuando {eq}X {/eq} es discreta. El concepto de una función de masa de probabilidad y el valor esperado tendrán más sentido con un ejemplo concreto, así que considere los datos del tamaño del hogar de antes: $$F(x)=P(X\leq{x})=\sum_{t\leq{x}}f(t), $$ donde {eq}f(t)=P(X=t). {/eq} El valor esperado de {eq}X, {/eq} escrito {eq}E(X) {/eq} o {eq}\mu, {/eq} está definido por $$E(X)= \mu=\sum_{x\in{X}}xf(x). $$ El valor esperado es precisamente la media de la distribución de probabilidad cuando {eq}X {/eq} es discreta. El concepto de una función de masa de probabilidad y el valor esperado tendrán más sentido con un ejemplo concreto, así que considere los datos del tamaño del hogar de antes:

Tamaño del hogar1234567
Probabilidad.272.334.161.13.062.029.012

La función de masa de probabilidad se puede escribir como una función por partes simplemente leyendo los valores de la tabla de la siguiente manera: $$f(x) = \begin{cases} .272 & \textrm{if}\hspace{.1cm}X=1 , \\ .334 & \textrm{if}\hspace{.1cm}X=2, \\ .161 & \textrm{if}\hspace{.1cm}X=3, \\ .13 & \textrm{if }\hspace{.1cm}X=4, \\ .062 & \textrm{if}\hspace{.1cm}X=5, \\ .029 & \textrm{if}\hspace{.1cm}X=6 ,\hspace{.1cm}\textrm{and} \\ .012 & \textrm{if}\hspace{.1cm}X=7 \end{cases}. $$ Entonces el siguiente cálculo produce el valor esperado, o media: $$E(X)=\sum_{x\in{X}}xf(x) \\ =1(.272)+2(.334)+ 3(.161)+4(.13)+5(.062)+6(.029)+7(.012) \\ =.272+.668+.483+.52+.31+.174+ .084=2.511. $$ Entonces, el número promedio de personas en un hogar típico en esta comunidad en particular es entre dos y tres, lo que coincide con los datos.

Cómo encontrar la varianza y la desviación estándar

Las medidas estadísticas de una distribución de probabilidad discreta distinta del valor esperado son útiles en la práctica, a saber, la varianza y la desviación estándar, indicadas {eq}\textrm{Var}(X) {/eq} y {eq}\sigma, {/eq } respectivamente. La varianza es una medida de cuánto difieren los datos observados del valor esperado y la desviación estándar es simplemente la raíz cuadrada (positiva) de la varianza. Más precisamente, dada una variable aleatoria discreta X con la función de masa de probabilidad {eq}f(x), {/eq} $$\textrm{Var}(X)=E(X-\mu)^{2}\hspace {.5cm}\textrm{y}\hspace{.5cm}\sigma=\sqrt{\textrm{Var}(X)}=\sqrt{E(X-\mu)^{2}} $$ Observe que la desviación estándar {eq}\sigma {/eq} tiene las mismas unidades que la variable original {eq}X, {/eq} p. ej., la unidad de la desviación estándar del conjunto de datos del hogar son las personas. En aras de ver las fórmulas en acción, calcule la varianza y la desviación estándar del conjunto de datos del hogar anterior de la siguiente manera: $$\textrm{Var}(X)=\frac{(1-2.511)^{2}+(2-2.511)^{2}+( 3-2,511)^{2}+(4-2,511)^{2}+(5-2,511)^{2}+(6-2,511)^{2}+(7-2,511)^{2}}{ 7}\\ =\frac{43.519847}{7}\\ =6.217121. $$ Aquí, el número $$43.519847 $$ se denomina suma de cuadrados y se divide por el número de puntos de datos. Entonces $$\sigma=\sqrt{\textrm{Var}(X)}=\sqrt{6.217121}\approx{2.49}. $$ Por lo tanto, la desviación estándar de la variable aleatoria {eq}X {/eq} es aproximadamente {eq}2,49, {/eq}, lo que refleja el hecho de que las instancias de {eq}X {/eq} están algo dispersas. Podría decirse que la distribución más familiar para los estudiantes es la distribución normal, y se debe enfatizar que solo las variables aleatorias continuas pueden tener una distribución normal. Un ejemplo común de una variable aleatoria continua de este tipo con una distribución normal es la altura de un grupo de personas. Sin embargo, cabe señalar que una variable aleatoria discreta {eq}X {/eq} puede tener una distribución aproximadamente normal ya que el número de instancias {eq}n {/eq} de {eq}X {/eq} tiende a infinito . En particular, dado que el teorema del límite central se aplica tanto a variables discretas como continuas, la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media. Sin embargo, cabe señalar que una variable aleatoria discreta {eq}X {/eq} puede tener una distribución aproximadamente normal ya que el número de instancias {eq}n {/eq} de {eq}X {/eq} tiende a infinito . En particular, dado que el teorema del límite central se aplica tanto a variables discretas como continuas, la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media. Sin embargo, cabe señalar que una variable aleatoria discreta {eq}X {/eq} puede tener una distribución aproximadamente normal ya que el número de instancias {eq}n {/eq} de {eq}X {/eq} tiende a infinito . En particular, dado que el teorema del límite central se aplica tanto a variables discretas como continuas, la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media. cabe señalar que una variable aleatoria discreta {eq}X {/eq} puede tener una distribución aproximadamente normal ya que el número de instancias {eq}n {/eq} de {eq}X {/eq} tiende a infinito. En particular, dado que el teorema del límite central se aplica tanto a variables discretas como continuas, la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media. cabe señalar que una variable aleatoria discreta {eq}X {/eq} puede tener una distribución aproximadamente normal ya que el número de instancias {eq}n {/eq} de {eq}X {/eq} tiende a infinito. En particular, dado que el teorema del límite central se aplica tanto a variables discretas como continuas, la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media. la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media. la distribución binomial se puede aproximar mediante la distribución normal para {eq}n suficientemente grande. {/eq} En este caso, la regla familiar de que aproximadamente el {eq}68\% {/eq} de los datos cae dentro de una desviación estándar de la media, el {eq}95\% {/eq} de los datos cae dentro dos desviaciones estándar de la media, y el {eq}99,7\% {/eq} de los datos se encuentra dentro de las tres desviaciones estándar de la media.

Resumen de la lección

Una variable aleatoria discreta {eq}X {/eq} es una variable aleatoria que puede asumir solo un número finito o contablemente infinito de valores distintos con probabilidad positiva. El ejemplo trivial es una variable aleatoria de Bernoulli, una variable aleatoria discreta que solo puede tomar dos valores: {eq}0 {/eq} y {eq}1. {/eq} A veces, las variables aleatorias discretas se llaman variables de conteo para reflejar el hecho de que cuentan algo. La distribución de probabilidad discreta de {eq}X {/eq} viene dada por la función {eq}f(x)=P(X=x), {/eq} denominada función de masa de probabilidad (PMF). A menudo, estos datos se representan como una tabla de distribución de probabilidad discreta o como un histograma. A través del uso de un ejemplo de distribución de probabilidad discreta, se demostraron las fórmulas para calcular el valor esperado, la varianza y la desviación estándar de una variable aleatoria discreta {eq}X {/eq}. Las fórmulas para estos tres valores son las siguientes: $$E(X)=\mu=\sum_{x\in{X}}xf(x), \\ \textrm{Var}(X)=E(X- \mu)^{2}, \hspace{.1cm}\textrm{y}\\ \sigma=\sqrt{\textrm{Var}(X)}. $$ Para una variable aleatoria discreta, el valor esperado y la media son iguales. En algunas circunstancias, una variable aleatoria discreta {eq}X {/eq} se puede aproximar mediante una variable aleatoria continua {eq}Y {/eq} como el número de observaciones {eq}n {/eq} de {eq}X { /eq} tiende a infinito. Estas aproximaciones son útiles cuando {eq}X {/eq} es aproximadamente normal y se desea aplicar la conocida regla de aproximadamente {eq}68\%, 95\%, {/eq} y {eq}99,7\% {/eq} de los datos que caen dentro de una, dos y tres desviaciones estándar de la media, respectivamente.

Articulos relacionados