Valor Atípico: Definición y ejemplos de estadística

Rodrigo Ricardo Publicado el 14 agosto, 2024 4 minutos y 53 segundos de lectura

¿Qué es un valor atípico?

Las estadísticas tienen el poder de resumir grandes conjuntos de datos. Algunas herramientas estadísticas brindan al investigador la capacidad de describir un conjunto de datos completo utilizando un solo valor. La media es un buen ejemplo de este tipo de herramientas. Sin embargo, por muy buenas que puedan ser estas características, existe una anomalía en las estadísticas que puede distorsionar la precisión de dichas herramientas analíticas: el valor atípico.

Identificar valores atípicos

Los escenarios que se enumeran a continuación presentan valores atípicos en diferentes contextos y se representan de diferentes formas.

Escenario 1: una hoja de datos que presenta un valor anormal para la altura masculina en una muestra de jugadores de baloncesto de secundaria.

Talla de una muestra de 8 jugadores de baloncesto masculinos de secundaria.

La hoja de datos anterior presenta un valor anormal de altura atribuido al jugador F. El investigador debe verificar un posible error al ingresar datos en este escenario.

Escenario 2: un histograma que presenta los sueldos mensuales de un profesional independiente en el transcurso de un año.

Histograma: nóminas mensuales durante un año para un autónomo.

En el gráfico anterior, el valor del sueldo de diciembre está claramente por debajo del promedio de ese año. Es un caso atípico. Un segundo histograma (que se muestra a continuación) agrupa estos cheques de pago por rango de valor, sin separarlos por mes. Destaca más el valor atípico en los datos.

Histograma: Cheques de pago de autónomos agrupados dentro de un rango de $500.

Este segundo gráfico aísla el valor atípico, que es un cheque de pago dentro del rango de 1852$ – 2352$. También existe la posibilidad de un segundo valor atípico que esté fuera del rango principal de 3352$ – 3852$. Aunque sería necesaria una mayor investigación, lo más probable es que el caso atípico se deba a que el trabajador independiente trabajó en menos proyectos durante los períodos anteriores a los salarios más bajos.

Escenario 3: Diagrama de dispersión que muestra la correlación entre los precios de las computadoras y su calidad (calificados entre 0 y 100 por un grupo de especialistas). Se analizaron quince modelos y sus marcas se redactaron utilizando letras del alfabeto (A a O).

Diagrama de dispersión que presenta una posible correlación entre los precios de las computadoras y su calidad.

Las marcas G y N son valores atípicos en este conjunto de datos. Se desvían claramente del patrón principal que muestra un crecimiento en la calidad cuando los precios de las computadoras aumentan. Estos datos anormales pueden existir por varias razones, como modelos informáticos sobrevaluados y sesgos de los especialistas.

Escenario 4: Diagrama de puntos que muestra la cantidad de latas de refresco que bebieron en una semana cinco miembros de una familia.

Gráfico de puntos que muestra el consumo semanal de refrescos de cada miembro de una familia de 5 personas.

En este gráfico, la cantidad de latas de refresco consumidas por el padre es un valor atípico. Se sale del patrón mostrado por los números proporcionados por los otros miembros de la familia. Las razones de la existencia del valor atípico pueden ser simples: el padre puede estar a dieta o, simplemente, ocultar la cantidad real.

Identificación de valores atípicos a través del rango intercuartil (IQR)

IQR es un método objetivo para identificar valores atípicos en un conjunto de datos. Crea una «valla» que rodea el centro de los datos. Todo lo que esté fuera de él se considerará un valor atípico. Lo que sigue es un cálculo del IQR paso a paso para los datos proporcionados por el escenario 2 (cheques de pago de autónomos) de esta sección.

Primero: Distribuir y ordenar los datos.

1852, 3245, 3357, 3398, 3412, 3415, 3421, 3427, 3508, 3512, 3513, 3529

Segundo: Separar los datos en dos partes iguales (con los datos impares no incluir la mediana).

(1852, 3245, 3357, 3398, 3412, 3415), (3421, 3427, 3508, 3512, 3513, 3529)

Tercero: encuentre la mediana para cada parte de los datos. Estos serán dos cuartiles (Q1 y Q3).

{eq}Q1 = \frac {(3357 + 3398)}{2} = 3377,5 {/eq}

{eq}Q3 = \frac {(3508 + 3512)}{2} = 3510 {/eq}

Cuarto: reste Q1 de Q3 para encontrar el IQR.

{eq}RIQ = Q3 – Q1 = 3510 – 3377,5 = 132,5 {/eq}

Quinto: Construir la ‘valla’.

El valor IQR, primero, debe multiplicarse por 1,5.

{eq}132,5 * 1,5 = 198,75 {/eq}

El límite inferior de la valla viene dado por:

{eq}T1 – 198,75 = 3178,75 {/eq}

El límite superior de la valla viene dado por:

{eq}Q3 + 198,75 = 3708,75 {/eq}

Sexto: Definir los valores atípicos.

Cualquier valor de los datos que caiga por debajo de 3178,75 y por encima de 3708,75 es un valor atípico. Por lo tanto, el cheque de pago de diciembre de 1852 dólares es el único valor atípico en este conjunto de datos.

Ejemplos de valores atípicos

Los dos ejemplos siguientes sirven como resumen del contenido de esta lección. Las soluciones se presentan al final de la sección.

Ejemplo 1: marque los posibles valores atípicos en los conjuntos de datos representados a continuación:

a)

Ejemplo 1.a.

b)

Ejemplo 1.b.

Ejemplo 2: utilice IQR para encontrar los valores atípicos en el siguiente conjunto.

1, 4, 11, 21, 25, 27, 31

Soluciones:

Ejemplo 1:

a)

Solución por ejemplo 1.a.

b)

Solución por ejemplo 1.b.

Ejemplo 2:

(1, 4, 11) 21 (25, 27, 31)

Q1 = 4

Q3 = 27

RIQ = 27 – 4 = 23

Límite inferior = {eq}Q1 – (IQR*1,5) = 4 – 23*1,5 = 4 – 34,5 = -30,5 {/eq}

Límite superior = {eq}Q3 + (IQR*1,5) = 27 + 23*1,5 = 27 + 34,5 = 61,5 {/eq}

Dado que ningún valor del conjunto está por debajo de -30,5 o por encima de 61,5, no hay valores atípicos en este grupo de valores.

Resumen de la lección

Esta lección presentó el concepto de valores atípicos como valores anormales en un conjunto de datos. Estas anomalías se pueden identificar a través de hojas de datos y gráficos. También se pueden calcular objetivamente utilizando el rango intercuartil, que es un método para calcular los límites superior e inferior de un conjunto. Cualquier valor que caiga por debajo o por encima de estos límites se considera un valor atípico en los datos. En estadística, los valores atípicos pueden percibirse como simples errores o incluso indicar circunstancias especiales con respecto a las fuentes de datos. Las razones más comunes para la existencia de valores atípicos son: error humano, métodos de muestreo deficientes e informes falsos.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador