foto perfil

Análisis estadístico univariado y ejemplos

Publicado el 8 abril, 2024

¿Qué son los datos univariados?

Datos univariados es un término utilizado en estadística para describir datos que consisten en observaciones sobre una sola característica o atributo. Solo hay una variable en los datos univariados. El análisis de datos univariados es, por lo tanto, el tipo de análisis más básico porque se ocupa de una sola variable que cambia. No está interesado en causas o relaciones, y su objetivo principal es explicar los datos y detectar patrones dentro de ellos. Los salarios de los trabajadores en una industria son un ejemplo simple de datos univariados.

Las principales características de los datos univariados son las siguientes:

  • Los datos univariados recopilan datos en torno a una única variable aleatoria. Describe cada variable por separado.
  • Los datos univariados describen el patrón de respuesta de la variable.

Ejemplos de datos univariados

  • Los salarios de los trabajadores en una industria específica; la variable en este ejemplo es el salario de los trabajadores.
  • Se miden las alturas de diez alumnos de una clase; la variable aquí es la altura de los estudiantes.
  • Un veterinario quiere pesar 20 cachorros; la variable, en este caso, es el peso de los cachorros.

Estadísticas univariadas

Las estadísticas univariadas se centran en una variable a la vez y no implican probar las variables entre sí. Más bien, le da al investigador la oportunidad de describir variables individuales. Como resultado, este tipo de estadística también se conoce como estadística descriptiva . Los patrones encontrados en este tipo de datos se pueden describir usando lo siguiente:

  • Medidas de tendencia central (media, moda y mediana)
  • Dispersión de datos (desviación estándar, varianza, rango, mínimo, máximo y cuartiles)
  • Tablas de distribución de frecuencia
  • Gráficos circulares
  • Histogramas de polígonos de frecuencia
  • Gráfica de barras

Análisis univariado

El análisis univariante es el tipo más fundamental de técnica de análisis de datos estadísticos. Los datos en este caso solo tienen una variable y no tienen que tratar con una relación de causa y efecto. Considere realizar una encuesta en el aula. A los analistas les gustaría contar cuántos niños y niñas hay en la habitación. Los datos presentados aquí solo analizan el número, que es una sola variable, y la cantidad variable. El objetivo principal del análisis univariado es describir los datos para descubrir patrones. El análisis univariante tomará datos, los resumirá y buscará patrones.

Sin embargo, el análisis univariado no analiza más de una variable a la vez o su relación. El análisis bivariado es el estudio de dos variables y sus relaciones. Un análisis multivariante es aquel en el que se consideran tres o más variables al mismo tiempo.

Hay tres métodos comunes para realizar análisis univariados:

  1. Resumen estadístico
  2. Distribuciones de frecuencia
  3. Gráficos

Resumen estadístico

La forma más común de realizar el análisis univariante es usar estadísticos de resumen para describir una variable. Hay dos tipos de estadísticas de resumen:

  1. Medidas de tendencia central: estos valores describen dónde se encuentra el centro o el valor medio del conjunto de datos. La media, la moda y la mediana son ejemplos.
  2. Medidas de dispersión: estos números describen cuán uniformemente distribuidos están los valores en el conjunto de datos. El rango, la desviación estándar y la varianza son algunos ejemplos.

Distribuciones de frecuencia

Una distribución de frecuencia describe la frecuencia con la que se producen diferentes valores en un conjunto de datos. Esto actúa como otra forma de realizar un análisis univariante.

Gráficos

Otro método para realizar un análisis univariante es crear gráficos que muestren la distribución de valores para una variable específica.

Algunos ejemplos comunes son:

  • Diagramas de caja
  • Histogramas
  • Curvas de densidad
  • Gráficos circulares

Media, mediana y moda

En un conjunto de datos numéricos, la media, la mediana y la moda son tres medidas diferentes del centro. Todos intentan resumir un conjunto de datos con un solo número que representa un punto de datos típico del conjunto de datos.

Media

Hay muchos tipos diferentes de medias, pero la mayoría de las personas se refieren a la media aritmética cuando dicen media. La media aritmética , también conocida como media matemática, se determina sumando todos los puntos de datos dados y luego dividiendo por el número total de puntos de datos.

Media = suma de todos los puntos de datos dados / número total de puntos de datos Ejemplo 1

Encuentra la media de los datos: 1, 2, 3, 4, 5.

Media = suma de todos los puntos de datos dados / número total de puntos de datos

Comience agregando los datos:

1 + 2 + 3 + 4 + 5 = 15

Hay un total de 5 números.

15/5 = 3

la media es 3
Ejemplo 2

¿Cuál es la media matemática de los siguientes números? 10, 6, 4, 4, 6, 4.

Media = suma de todos los puntos de datos dados / número total de puntos de datos

Comience agregando los datos:

10 + 6 + 4 + 4 + 6 + 4 = 34

Hay un total de 6 números.

34/6 = 5,66

La media es 5,67.

Mediana

La mediana de los datos es el valor de la observación más intermedia que se adquiere después de organizar los datos en orden ascendente o descendente.

Paso 1: Ordene los datos en orden ascendente o descendente.

Paso 2: Determine si n (número de observaciones) es par o impar. Si n es un número impar, utilice la siguiente fórmula:

{eq}Mediana=\left ( \frac{n+1}{2} \right )^{th}\text{observación} {/eq}.

Si n es un número par, utilice la siguiente fórmula:

{eq}Mediana=\frac{\left ( \frac{n}{2} \right )^{th}\text{observación}+\left ( \frac{n}{2}+1 \right )^{ th}\text{observación}}{2} {/eq}.
Ejemplo 1

Encuentra la mediana de 56, 67, 54, 34, 78, 43, 23.

Ordenando en orden ascendente: 23, 34, 43, 54, 56, 67, 78.

Aquí, n = 7.

Usando la fórmula de la mediana para puntos de datos impares:

{eq}Mediana=\left ( \frac{n+1}{2} \right )^{th} \text{observación} {/eq}

{eq}Mediana=\left ( \frac{7+1}{2} \right )^{th} \text{observación} {/eq}

{eq}Mediana= 4th\;\text{observación} {/eq}

La mediana es 54.
Ejemplo 2

Encuentra la mediana de estos datos: 50, 67, 24, 34, 78, 43.

Ordenando en orden ascendente: 24, 34, 43, 50, 67, 78.

Aquí, n = 6.

Usando la fórmula de la mediana para puntos de datos pares,

{eq}Mediana=\frac{\left ( \frac{n}{2} \right )^{th}\text{observación}+\left ( \frac{n}{2}+1 \right )^{ th}\text{observación}}{2} {/eq}

{eq}Mediana=\frac{\left ( \frac{6}{2} \right )^{th}\text{observación}+\left ( \frac{6}{2}+1 \right )^{ th}\text{observación}}{2} {/eq}

{eq}Mediana=\frac{\left ( 3 \right )^{th}\text{observación}+\left ( 4 \right )^{th}\text{observación}}{2} {/eq}

{eq}Mediana=\frac{43+50}{2} {/eq}

La mediana es 46,5.

Moda

Una moda de datos se define como el valor que aparece con mayor frecuencia en los datos dados.
Ejemplo 1

Una maestra preguntó a sus alumnos cuántos hermanos tenía cada uno. Busque el valor más frecuente. Dos estudiantes informan que no tienen hermanos, seis informan que tienen uno, tres informan que tienen dos, uno informa que tiene tres y uno informa que tiene cuatro. Determinar la moda de los datos.

Busque el valor más frecuente.

0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 3, 4.

La moda es 1 hermano.

Varianza y desviación estándar

En estadística, dos medidas importantes son la varianza y la desviación estándar. La desviación estándar de los datos estadísticos es una medida de su distribución, mientras que la varianza es una medida de cómo los puntos de datos difieren de la media. La principal diferencia es que la desviación estándar se expresa en las mismas unidades que la media de los datos, mientras que la varianza se expresa en unidades al cuadrado.

Fórmulas de varianza y desviación estándar

La fórmula de la varianza de la población es {eq}\sigma^{2}=\frac{1}{N}\sum_{i=1}^{N}\left ( X_{i}-\mu \right )^{2 } {/eq}, donde:

  • {eq}\sigma^{2} {/eq}= Varianza de la población
  • N = Número de observaciones en la población
  • Xi = i-ésima observación en la población
  • {eq}\mu {/eq} = Media de la población

La fórmula de la varianza de muestra es {eq}s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left ( x_{i}-\overline{x} \right ) ^{2} {/eq}, donde:

  • {eq}s^{2} {/eq} = Varianza muestral
  • n = Número de observaciones en una muestra
  • xi = i-ésima observación en la muestra
  • {eq}\overline{x} {/eq} = Media de la muestra

La fórmula de la desviación estándar de la población es {eq}\sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left ( X_{i}-\mu \right )^{2 } } {/eq}, donde:

  • {eq}\sigma {/eq} = Desviación estándar de la población

La fórmula de desviación estándar de muestra es {eq}s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left ( x_{i}-\overline{x} \right )^{2}} {/eq}, donde:

  • s = desviación estándar de la muestra

Muestra vs Población

Es fundamental comprender la distinción entre una población y una muestra al realizar pruebas estadísticas. Para calcular la desviación estándar (o varianza) de una población, se deben recopilar medidas de todos los miembros del grupo que se está estudiando. Las mediciones deben tomarse de un subconjunto de la población para formar una muestra.
Ejemplo 1

Supongamos que uno quiere encontrar la varianza de la edad y la desviación estándar en un grupo de cinco amigos cercanos. Los amigos tienen 25, 26, 27, 30 y 31 años.

{eq}\sigma^{2}=\frac{1}{N}\sum_{i=1}^{N}\left (X_{i}-\mu \right)^{2} {/eq}

En primer lugar, encuentre la edad media:

(25 + 26 + 27 + 30 + 31) / 5 = 27,8

Luego, para cada uno de los cinco amigos, calcule las desviaciones de la media.

25 – 28 = -3

26 – 28 = -2

27 – 28 = -1

30 – 28 = 2

31 – 28 = 3

Ahora, toma cada diferencia de la media, elévala al cuadrado y luego promedia el resultado.

{eq}\sigma^{2} {/eq} ={eq}\frac{\left (-3^{2} \right )+\left ( -2^{2} \right )+\left ( – 1^{2} \right )+\left ( 2^{2} \right )+\left ( 3^{2} \right )}{5} {/eq}

= (9 + 4 + 1 + 4 + 9 ) / 5 = 5,4

{eq}\sigma =\sqrt{5.4} {/eq}

La desviación estándar es 2,32, que es la raíz cuadrada de la varianza. El valor de desviación estándar indica que los amigos tienen una diferencia de edad promedio de 2,32 años.

En el ejemplo anterior, se supuso como población al grupo de cinco amigos. Si lo hubiéramos tratado como una muestra, tendríamos que usar la fórmula de la varianza de la muestra y la desviación estándar
Ejemplo 2

¿Cuál es la desviación estándar para este conjunto de datos {5, 5, 5, 5, 5}?

La desviación estándar es la raíz cuadrada de la varianza y puede ser una medida de qué tan separados están los números en un conjunto de datos de la media. Piensa en el conjunto de datos {5, 5, 5, 5, 5}. La media es 5, pero todos los números del conjunto también son 5. No hay diferencia entre ningún número de este conjunto y la media, por lo que la desviación estándar (y la varianza) es simplemente 0.

Rango

El rango de datos en las estadísticas es la dispersión desde el valor más bajo hasta el más alto en la distribución. Es una medida de variación ampliamente utilizada. Las medidas de variabilidad proporcionan estadísticas descriptivas para resumir conjuntos de datos como medidas de tendencia central,

El rango se determina restando los valores más bajo y más alto. Un número de rango grande indica una alta variabilidad en la distribución, mientras que un número de rango pequeño indica una variabilidad baja. El rango se calcula usando la siguiente fórmula:

{eq}R= H – L {/eq}, donde:

  • R = Rango
  • H = El valor más alto
  • L = El valor más bajo

El rango es la forma más sencilla de calcular la variabilidad. Siga estos pasos para determinar el rango:

  1. Ordene los valores del conjunto de datos de menor a mayor.
  2. Resta el valor más bajo del valor más alto.

Este procedimiento se aplica ya sea que los valores sean positivos o negativos, números enteros o fracciones.
Ejemplo 1

Encuentra el rango del conjunto de datos: 4, 6, 9, 3, 7.

{eq}R= A – L {/eq}

{eq}R= 9 – 3 {/eq}

{eq}R= 6 {/eq}

El rango es 6.

Resumen de la lección

Los datos univariados reúnen información en torno a una única variable aleatoria. Cada variable se describe por separado y describe el patrón de respuesta de la variable. Los salarios de los trabajadores de la industria es un ejemplo simple de datos univariados. Las estadísticas univariadas examinan solo una variable a la vez y no comparan las variables entre sí. La estadística descriptiva es otro nombre para las estadísticas univariadas. El análisis univariado tomará datos y los resumirá antes de buscar patrones. Los patrones que se encuentran en este tipo de datos se pueden describir utilizando medidas de tendencia central, dispersión de datos, tablas de distribución de frecuencia, gráficos circulares, histogramas de polígonos de frecuencia y gráficos de barras.

La media aritmética , también conocida como media matemática, se determina sumando todos los puntos de datos dados y luego dividiendo por el número total de puntos de datos. La mediana de los datos es el valor de la observación más intermedia que se adquiere después de organizar los datos en orden ascendente o descendente. Una moda de datos se define como el valor que aparece con mayor frecuencia en los datos dados. La varianza , en términos sencillos, es una medida de qué tan lejos se dispersa un conjunto de datos de su valor medio o promedio. La dispersión de los datos estadísticos dados se mide por la desviación estándar . El grado de dispersión se calcula utilizando el método de estimación de la desviación de los puntos de datos. losEl rango de datos en estadística es la dispersión desde el valor más bajo hasta el más alto en la distribución. Es una medida de variación ampliamente utilizada.

Articulos relacionados