Explorando sus datos
¿Alguna vez ha visto un conjunto de datos sin procesar? Quizás estaba en un archivo delineado por comas. No hay mucho que puedas hacer con eso. No se le puede dar mucho sentido.
Pero con algo conocido como análisis exploratorio de datos, puede abrir los ojos a un mundo de muchas posibilidades, conexiones y curiosidades interesantes que de otro modo nunca hubiera visto.
En esta lección, definimos algunos de los muchos aspectos del análisis de datos exploratorios y repasamos un par de ejemplos de cuándo podría resultar útil.
¿Qué es el análisis de datos exploratorios?
El análisis exploratorio de datos , o EDA, es un enfoque y una filosofía (principalmente) visual que se centra en las formas iniciales por las que uno debe explorar un conjunto de datos o un experimento. Dos aspectos principales de EDA son:
- Franqueza. Una persona que explora los datos debe estar abierta a todas las posibilidades antes de su exploración.
- Escepticismo. Uno debe asegurarse de que la historia obvia que cuentan los datos no sea engañosa.
¿Cuál es el propósito general de EDA?
No existe un conjunto formal de técnicas que se utilicen en EDA. Recuerde, EDA es un enfoque de cómo analizamos los datos, no un conjunto específico de métodos escritos en piedra. Es una filosofía y un arte más que una ciencia.
¿Qué es el Análisis GAP? Pasos y ejemplos
Su propósito es tener una visión general de algunos datos dados sin hacer ninguna suposición al respecto. Estamos tratando de tener una idea de los datos y lo que podrían significar en lugar de rechazar o aceptar algún tipo de premisa antes de comenzar su exploración.
En otras palabras, con EDA dejamos que los datos hablen por sí mismos en lugar de intentar forzar los datos en algún tipo de modelo predeterminado.
No obstante, se utilizan algunas técnicas para ayudarnos a familiarizarnos con los datos. Por ejemplo, podemos categorizar datos, cuantificar algunos de sus aspectos básicos o visualizarlos.
Por ejemplo, los datos sin procesar se pueden trazar usando histogramas u otras técnicas de visualización. A veces, los datos se yuxtaponen de una manera que nos ayuda a detectar patrones importantes dentro o entre conjuntos de datos.
¿Para qué se utiliza la EDA?
EDA se utiliza para:
Análisis de Variaciones: Definición, importancia y aplicación práctica
- Detectando errores y anomalías
- Obtener nuevos conocimientos sobre los datos
- Detectar valores atípicos en los datos
- Prueba de supuestos
- Identificar factores importantes en los datos
- Entender las relaciones
Y quizás, lo más importante, EDA se utiliza para ayudar a determinar nuestros próximos pasos con respecto a los datos. Por ejemplo, es posible que tengamos nuevas preguntas que necesitemos responder o una nueva investigación que debamos realizar.
Ejemplos
Zapatos
Entonces, ¿cuándo utilizaríamos el análisis de datos exploratorios, específicamente en el campo del marketing?
Bueno, digamos que trabaja para un minorista que vende 100 tipos diferentes de zapatos. Hay zapatos de vestir, botas de montaña, sandalias, etc. Al usar EDA, está abierto al hecho de que cualquier cantidad de personas puede comprar cualquier cantidad de diferentes tipos de zapatos.
Visualiza los datos utilizando un análisis de datos exploratorio para encontrar que la mayoría de los clientes compran de 1 a 3 tipos diferentes de zapatos. Las zapatillas, los zapatos de vestir y las sandalias parecen ser los más populares. No es de extrañar, pero al menos estabas abierto a diferentes posibilidades.
Pero después de una mirada más cercana, los datos le ayudan a visualizar algo más. Hay un grupo pequeño pero significativo de personas que compran 50 o más tipos diferentes de zapatos en un año determinado. Eso es algo que habría sido difícil de detectar sin EDA, y si no hubiera estado abierto a esta posibilidad, podría haberlo descartado antes.
Resumen y análisis del Libro «Una rosa para Emily»
Por supuesto, debe mostrarse escéptico de inmediato sobre esto. Asegúrese de que no sea solo una falla en el conjunto de datos de algún tipo.
Supongamos que no lo es. Con el propósito de EDA en mente, estos datos periféricos deberían plantear algunas preguntas. ¿Quienes son esas personas? ¿Por qué compran tantos zapatos? ¿Estos clientes son personas o empresas?
Puede explorar más los datos para obtener su respuesta o, si es necesario, recopilar más datos que se pueden explorar más adelante para obtener una respuesta. ¡Incluso podría abrir un nuevo grupo de clientes que ni siquiera creía tener!
Visitantes del sitio web
He aquí otro ejemplo. Digamos que está a punto de iniciar una empresa que se ofrece a pagar los impuestos de las personas. Los impuestos son realmente confusos. Debido a esto, su sitio web está diseñado de una manera que explica clara y fácilmente la información fiscal importante de una manera fácilmente digerible. ¡Es tan fácil que incluso los niños de sexto grado pueden entenderlo!
Como resultado, usted espera que la mayoría de su base de clientes no esté muy bien educada y no esté muy bien como resultado. Por lo tanto, establecerá sus precios para que coincidan con este segmento del mercado en consecuencia.
Sin embargo, tras la exploración de los datos de su sitio web, se da cuenta de que la mayoría de sus lectores son bien educados y acomodados. ¿Que pasó aquí? Quizás incluso los más educados se confundan con los impuestos o no quieran tomarse el tiempo para descubrir la compleja terminología.
Parece que ha entendido mal su base de mercado. Por supuesto, debes ser escéptico. Tal vez las personas bien educadas y acomodadas estén visitando su sitio web. ¿Pero van a comprar tu servicio a precios más altos, necesariamente?
Un análisis de datos exploratorio adicional puede ayudar a responder estas y muchas otras preguntas.
Resumen de la lección
Sin embargo, debemos resumir esta lección.
El análisis exploratorio de datos , EDA, es una filosofía, un arte y una ciencia que nos ayuda a abordar un conjunto de datos o un experimento de una manera abierta, escéptica y abierta.
EDA nos permite averiguar qué tipo de modelo pueden revelar los datos, no el modelo al que debemos ajustar nuestros datos. EDA no tiene ninguna técnica en particular, pero muchos enfoques se basan en elementos visuales, como gráficos, para ayudarnos a comprender lo que nos dicen los datos y lo que debemos explorar.
En general, EDA puede ayudarnos a:
- Atrapa errores
- Obtenga nuevos conocimientos
- Detectar valores atípicos
- Supuestos de prueba
- Entender las relaciones
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...
