Valor atípico en estadística: definición y explicación

Rodrigo Ricardo Publicado el 22 septiembre, 2020 6 minutos y 10 segundos de lectura

¿Qué es un valor atípico?

Imagina que estás realizando un estudio de investigación para ver si una mejora en el estado de ánimo podría aumentar la velocidad de los corredores de pista de la escuela secundaria. Toma un total de 51 estudiantes de dos escuelas secundarias y mide la distancia que pueden correr en 60 segundos (medida en pies). Se miden a ambos antes de que mejore su estado de ánimo y después para comparar la diferencia. La siguiente tabla resume sus hallazgos.

Todos los corredores mejoraron excepto uno. Aunque puede ser difícil de reconocer con solo mirar la tabla, tiene un valor atípico.

En este ejemplo, -86 es un valor atípico. Un valor atípico es cualquier valor numéricamente distante de la mayoría de los otros puntos de datos en un conjunto de datos. Sabemos que -86 está muy por debajo de cualquiera de los demás valores de nuestro conjunto de datos. No es raro encontrar un valor atípico en un conjunto de datos.

¿De dónde provienen los valores atípicos?

La fuente más común de valores atípicos es el error de medición. Por ejemplo, podría ser que hubo problemas con la batería con el temporizador que hicieron que la alarma se apagara antes de que transcurrieran los 60 segundos del corredor. Otra causa de valores atípicos es el error experimental. Por ejemplo, podría ser que la señal de carrera no fuera lo suficientemente fuerte como para que la oyeran todos los atletas, lo que provocó que un corredor tuviera una salida tardía. Esto pondría el tiempo del corredor muy por debajo del de los otros corredores. Un valor atípico también puede deberse al azar.

Otras fuentes de valores atípicos incluyen:

  • Error humano (es decir, errores en la entrada o recopilación de datos)
  • Participantes que informan intencionalmente datos incorrectos (esto es más común en las medidas autoinformadas y las medidas que involucran datos confidenciales, es decir, los adolescentes no informan la cantidad de alcohol que consumen en una encuesta)
  • Error de muestreo (es decir, incluir jugadores de baloncesto de la escuela secundaria en la muestra, aunque se suponía que el estudio de investigación solo trataba sobre corredores de pista de la escuela secundaria)

Si se determina que un valor atípico se debe a algún tipo de error (es decir, error de medición o experimental), entonces está bien excluir el punto de datos del análisis. Sin embargo, si el valor atípico se debió al azar o algún proceso natural del constructo que se está midiendo, no debe eliminarse.

Detectar valores atípicos

La forma más sencilla de detectar un valor atípico es creando un gráfico. Podemos detectar valores atípicos utilizando histogramas, diagramas de dispersión, rectas numéricas y el rango intercuartílico .

Histograma

Supongamos que se nos pidió que creáramos un histograma utilizando los datos que recopilamos de los corredores de pista de la escuela secundaria. El siguiente es el histograma del cambio de distancia para cada uno de los corredores de pista.

Si observa el gráfico, puede ver que hay un valor que se encuentra lejos del lado izquierdo de todos los demás datos. Este punto de datos es un valor atípico. Si observa todos los demás datos y excluye el valor atípico, notará que tiene la forma de una distribución normal. Cuando esto sucede, es probable que el valor atípico se deba a algún tipo de error.

Digamos que descubrió que el corredor cuya distancia disminuyó en 86 pies cayó enfermo y tuvo que dejar de correr durante sus 60 segundos para vomitar. Dado que no estuvo corriendo durante los 60 segundos completos, tendría sentido que su distancia de carrera disminuya. No incluiría este valor atípico en su análisis, ya que la medición no tuvo en cuenta que se detuvo y se enfermó.

Gráfico de dispersión

Suponga que el entrenador ofreció 45 sesiones de práctica en las que se enseñó a los corredores a hacer saltos con vallas; sin embargo, los corredores solo debían asistir a 15 de las sesiones. El objetivo de las sesiones era disminuir la cantidad de saltos de obstáculos que los jugadores se perdían durante sus encuentros en pista. Registramos cuántas sesiones de práctica asistió cada miembro de la pista y la cantidad de saltos de obstáculos que se perdió. Se utilizaron los datos para crear un diagrama de dispersión, poniendo el número de sesiones de entrenamiento en el y eje x y el número de saltos de obstáculos perdido en la x eje x.

La línea negra en la gráfica de dispersión es la línea de mejor ajuste , que es la línea que mejor representa todos los puntos de datos en la gráfica de dispersión. En su mayor parte, vemos que los puntos de datos tienden a alinearse bastante cerca de la línea. Notamos que cuantas más sesiones de práctica asistieron los miembros de la pista, menos saltos de obstáculos se perdieron. Sin embargo, hay un dato que no se ajusta a esta tendencia y se aleja mucho de la línea de mejor ajuste. Por lo tanto, es un valor atípico.

La recta numérica

¿Cómo puede reconocer visualmente un valor atípico cuando no hay números repetidos? Puede utilizar una recta numérica. Supongamos que quisiéramos mirar la altura de nueve estudiantes de quinto grado. Las alturas de los estudiantes en pulgadas son: 40, 41, 40,75, 40,5, 41,5, 41,75, 42, 41,25 y 60.

Podemos crear una línea, numerarla del 40 al 60 y trazar los datos en la recta numérica. La recta numérica de las alturas de los nueve estudiantes de quinto grado se vería así (ver video). Al igual que con el histograma y el diagrama de dispersión, podemos mirar la recta numérica y ver que el número ’60’ se encuentra muy lejos del resto del conjunto de datos. Por lo tanto, es un valor atípico.

El rango intercuartil (IQR)

Los valores atípicos se pueden identificar con el rango intercuartílico, un número que mide la extensión de la mitad media de los datos. Agregue 1.5 IQR al tercer cuartil (el percentil 75 del conjunto de datos) y reste 1.5 IQR del primer cuartil (el percentil 25 del conjunto de datos). Un número que supere esos dos números normalmente se puede considerar un valor atípico.

Resumen de la lección

Revisemos. Un valor atípico es cualquier valor numéricamente distante de la mayoría de los otros puntos de datos en un conjunto de datos. El error de medición, el error de experimento y la probabilidad son fuentes comunes de valores atípicos. La forma más sencilla de detectar un valor atípico es creando un gráfico. Los valores atípicos se pueden detectar fácilmente mediante histogramas , diagramas de dispersión y líneas numéricas . Entonces, la próxima vez que se encuentre mirando un conjunto de datos y piense que algo no está bien, cree un gráfico. Es posible que descubra que tiene un valor atípico.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador