foto perfil

Creación de argumentos y predicciones a partir de datos univariados

Publicado el 31 octubre, 2020

Hacer predicciones a partir de datos univariados

Sydney ha estado vendiendo sus tomates en un mercado de agricultores local durante el año pasado. Ella vende sus tomates a $ 1 la libra. Sus clientes están muy contentos y quieren que vuelva el próximo año. Sydney ahora está considerando comprar una semilla de tomate diferente y más cara. Quiere saber cuántas semillas de tomate necesita comprar basándose en las ventas del año pasado.

Sydney deberá hacer una predicción basada en los datos que ha recopilado. Sydney puede usar las medidas de tendencia central para encontrar la cantidad de semillas de tomate que necesita comprar. En esta lección, aprenda a utilizar las herramientas de tendencia central para hacer argumentos y predicciones a partir de datos univariados.

Cómo analizar datos univariados

Los datos univariados son una variable en un conjunto de datos que se analiza para describir un escenario o experimento. Las ventas de tomates de Sydney del año pasado representan un conjunto de datos univariados. Puede ver datos univariados en una visualización de tallo y hojas o en un diagrama de caja y bigotes.

Las medidas de tendencia central son los conceptos matemáticos que miden el valor único que intenta describir el conjunto de datos en su totalidad. Los tipos más comunes de medidas de tendencia central son la media, la mediana y la moda. Si no está familiarizado con el uso de estos métodos, detenga este video y consulte nuestras otras lecciones en este curso de estadística.

Estas medidas o métodos son herramientas que podemos utilizar para describir una situación. A partir de esta descripción, puede realizar argumentos y predicciones a partir de los datos. Por ejemplo, si tuviera que analizar las alturas de cada planta de tomate y encontrara que la moda de los datos es de 16 pulgadas, entonces podría argumentar que la próxima planta de tomate probablemente tenga 16 pulgadas de altura. Puede utilizar algunas o todas las medidas de tendencia central para analizar sus datos. Es mejor utilizar varios métodos para que pueda comprobar si hay errores y analizar los datos desde múltiples perspectivas.

Análisis de datos mediante tendencia central

Veamos los datos de Sydney del año pasado. Cada número es el número de tomates vendidos cada mes durante ocho meses. Los datos están ordenados de menor a mayor.

121, 121, 123, 124, 125, 127, 128, 132

Redondeado al número entero más cercano, la media de este conjunto de datos es 125.

La media se puede utilizar para tener una idea general o una imagen del conjunto de datos. La media se usa mejor para un conjunto de datos con números más cercanos. La media no es buena para medir la tendencia central de conjuntos de datos que contienen valores atípicos. Dado que este conjunto de datos no contiene valores atípicos, podemos usar la media de este conjunto de datos para hacer argumentos y predicciones. Por ejemplo, podríamos argumentar que Sydney debería comprar semillas que produzcan un mínimo de 125 tomates, ya que en promedio vendió 125 tomates cada mes.

Redondeado al número entero más cercano, la mediana de este conjunto de datos es 125. La mediana se puede usar para tener una idea de qué valores caen por encima del punto medio y qué valores caen por debajo del punto medio. Existe la misma probabilidad de que los valores del conjunto de datos caigan por encima o por debajo de la mediana. La mediana se usa mejor para un conjunto de datos con números que tienen algunos números más grandes o más pequeños y varios números cercanos. Un número grande o pequeño puede sesgar la media, pero la mediana a menudo puede darle una mejor idea de los datos.

Por ejemplo, si Sydney vendió sus tomates en el mercado de agricultores y luego una tormenta repentina hizo que los clientes se fueran, las ventas de ese día podrían sesgar sus datos. Eso es porque no fueron los tomates los que causaron menos ventas, fue la tormenta. En este caso, la mediana sería un mejor indicador de tendencia central.

La moda es la medida más fácil de encontrar de tendencia central; simplemente busque el número que más aparece en el conjunto de datos. En este conjunto de datos, el número que ocurre con mayor frecuencia es 121. El modo es una buena manera de analizar la frecuencia con la que ocurren ciertos números en un conjunto de datos. Si está buscando la opción más popular en un conjunto de datos, el modo es un buen método para usar.

Veamos las medidas de tendencia central que tenemos:

Media: 125
Mediana: 125
Moda: 121

Según estos datos, Sydney estaría mejor comprando al menos suficientes semillas de tomate para vender 125 tomates cada mes. Sabemos esto porque el conjunto de datos nos mostró que, en promedio, Sydney vendió 125 tomates, mientras que la moda fue el número más pequeño en el conjunto de datos. Podemos argumentar que Sydney necesitará comprar al menos suficientes semillas de tomate para vender 125 tomates cada mes. También podemos predecir que venderá al menos 125 tomates en promedio en la próxima temporada.

Analizar datos con gráficos y tablas

Trama de caja y bigotes

Estos son nuestros datos representados en un diagrama de caja y bigotes. Observe que el cuadro, o el rango intercuartil , está entre 122 y 128. El rango intercuartil es mejor cuando se mira un grupo de números y se los compara con el promedio, como puntajes de pruebas o datos basados ​​en el rendimiento como puntajes de juegos. Esto nos da una representación visual de cuántos tomates necesitará Sydney para la próxima temporada. Según esto, necesitará comprar suficientes semillas para producir entre 122 y 128 tomates cada mes, no muy lejos de nuestra predicción de 125.

nulo

Estos son nuestros datos representados en una pantalla de tallo y hojas. Podemos ver en esta pantalla que lo más probable es que no necesitemos más de 128 tomates por mes. Una vez más, esto encaja con nuestra predicción original de al menos 125 tomates por mes.

nulo

Este es un histograma. Muestra la frecuencia en la distribución de datos. Observe que la cantidad de tomates vendidos cada mes aparece en la parte inferior, o en el eje x , mientras que la frecuencia con la que ocurre cada número aparece en el costado o en el eje y . Puede ver que 121 tiene la frecuencia más alta porque aparece dos veces en el conjunto de datos.

nulo

Ésta es una tabla de frecuencias. Es una forma numérica de mostrar la distribución de frecuencias en un conjunto de datos.

Si dibuja una línea después de 125 y observa todas las observaciones en el conjunto de datos entre 121 y 125, verá que la mayoría de las observaciones ocurren en este rango. Por lo tanto, el histograma y la tabla de frecuencias se ajustan a nuestra predicción de necesitar al menos 125 tomates para vender cada mes.

Otra forma de datos univariados se llama series de tiempo. Esta es una forma más avanzada de estadísticas, por lo que no la cubriremos en profundidad aquí. Básicamente, una serie de tiempo es un grupo de datos comparados consigo mismo en el pasado.

Por ejemplo, Sydney podría recopilar datos de dos o tres temporadas y luego comparar las ventas de cada mes. En este caso, todavía tendría una variable, pero tiene varios conjuntos de datos para usar en la comparación.

Resumen de la lección

Las medidas de tendencia central son los conceptos matemáticos que miden el valor único que intenta describir el conjunto de datos en su totalidad. Los tipos más comunes de medidas de tendencia central son la media, la mediana y la moda. Estas medidas pueden ayudarlo a hacer argumentos y predicciones a partir de datos univariados.

Los datos univariados son una variable en un conjunto de datos que se analiza para describir un escenario o experimento. Los datos univariados tienen solo un conjunto de variables. La función o propósito principal de los datos univariados es describir un experimento.

Puede ver datos univariados en una visualización de tallo y hojas o en un diagrama de caja y bigotes. En esta lección, también analizamos los datos usando una tabla de frecuencias y un histograma para mostrarnos la distribución de los datos. A partir de estas herramientas, pudimos predecir cuántos tomates necesitaría cultivar Sydney cada mes durante la próxima temporada.

Los resultados del aprendizaje

Recuerde los detalles de esta lección para que pueda:

  • Recite la definición de datos univariados
  • Identificar las medidas de tendencia central
  • Hacer predicciones usando las medidas de tendencia central
  • Utilice datos univariados que se muestran en una pantalla de tallo y hojas, diagrama de caja y bigotes, histograma y tabla de frecuencias

Articulos relacionados