Minería de datos: desafíos y obstáculos

Rodrigo Ricardo Publicado el 14 noviembre, 2020 6 minutos y 26 segundos de lectura

Dificultades en la minería de datos

Como empresa de pedidos de productos en línea, Rainforest utiliza la minería de datos para mejorar sus diversas ofertas. Sin embargo, puede ser difícil descubrir, analizar y asegurar toda la información resultante durante un tiempo suficiente para que los datos sean útiles y oportunos para descubrir tendencias y conocimientos.

Los usuarios de la minería de datos enfrentan muchos desafíos, como datos complejos y ruidosos, posibles problemas de rendimiento y, por supuesto, las implicaciones de privacidad y seguridad de los mismos.

Datos complejos y ruidosos

Rainforest utiliza muchas fuentes de información en sus operaciones, como inventario de artículos, pedidos pasados ​​y actuales, visitas a páginas y registros de otros servicios que ejecutan como negocios paralelos. Desafortunadamente, es posible que los datos no sean demasiado útiles, porque están dañados de alguna manera o simplemente son difíciles de leer y traducir.

Los datos complejos son datos que no se pueden convertir fácilmente a un formato accesible. Los ejemplos pueden tener números de atributos variables o realizar un seguimiento de más de un valor a la vez, como productos costosos que ejecutan una promoción o artículos con limitaciones de envío. Además, algunos datos solo se pueden usar junto con otros datos o solo pueden venir en forma de gráfico, como cuántos pedidos se entregan en una ubicación específica. A veces, se recopilan cantidades de datos tan masivas a la vez que es imposible almacenarlas y analizarlas rápidamente.

Además, los sistemas informáticos pueden perder datos debido a un error humano o porque un dispositivo de almacenamiento muere sin una copia de seguridad. En otros casos, al analizar los datos encontrados en un sistema, se podría descubrir que es completamente inútil para la minería de datos.

Rainforest tiene algunos negocios secundarios, como su sistema de libros electrónicos Cebia y el asistente de voz Rainy. Es importante desarrollar estos negocios secundarios para diversificar su base de usuarios y, por lo tanto, generar más compras en su sitio web. Sin embargo, los datos que se recopilan de estas fuentes pueden ser ruidosos y, por lo tanto, menos útiles o incluso inutilizables.

Los datos ruidosos son datos que tienen errores introducidos por herramientas de medición, causados ​​por errores aleatorios de procesos por lotes o problemas humanos encontrados durante la recopilación de datos.

Por ejemplo, el proceso de digitalización de un libro de un experto podría perder algunos caracteres escritos, lo que significa que se pierde información del libro electrónico resultante. Además, varias personas podrían estar hablando mientras el asistente virtual está en la habitación y puede escucharlas a todas, lo que dificulta determinar si alguien tiene una consulta que desea que se responda.

Problemas de rendimiento

Rainforest gana mucho dinero vendiendo productos, con cientos de compradores en su sitio web todos los días. Junto con esta gran cantidad de dinero y datos que ingresan, naturalmente quieren expandir y fortalecer su control en el mercado del comercio electrónico. De lo contrario, un competidor más ágil podría llevarse clientes. Los propios mercados tienden a cambiar rápidamente; lo que es popular hoy podría ser el fracaso del año pasado mañana.

Un desafío difícil al que se enfrenta Rainforest cuando trabaja con muchos datos variados son los problemas de rendimiento. Estos incluyen eficiencia, escalabilidad y paralelización de algoritmos de minería de datos. La eficiencia y la escalabilidad son desafíos importantes; Para encontrar de manera efectiva tendencias y conocimientos dentro de una gran cantidad de datos, los algoritmos deben ser rápidos y estables para no sobrecargar el sistema.

El hardware utilizado en el sistema de minería de datos es importante, ya que se requiere un procesador rápido y mucha memoria para analizar grandes bases de datos y datos complejos, pero una solución para esto es la paralelización. La paralelización divide los trabajos en tareas más pequeñas en las que varias computadoras cooperan para terminar más rápido en comparación con una computadora grande. La minería de datos puede beneficiarse enormemente del uso de esta estrategia; es menos eficaz si sólo un sistema hace todo el trabajo.

Privacidad y seguridad

La minería de datos es una práctica que casi todas las empresas, incluidos los servicios de comercio electrónico como Rainforest, utilizan hoy en día. Los sitios web utilizan la minería de datos para seleccionar elementos, secciones y anuncios de páginas «recomendados para usted». Muchas empresas intentan sugerir cosas que es probable que compre, como libros similares a los que ha leído antes o productos relacionados con búsquedas recientes en sitios web.

Los servicios no siempre se fijan en las compras que ha realizado ni en el historial de navegación; La simple búsqueda en Internet puede proporcionar información sobre la vida de una persona, como en qué eventos participa, dónde trabaja e incluso cosas relacionadas con la salud de su familia. Por ejemplo, buscar temas relacionados con bebés o simplemente hacer clic en elementos de esa categoría podría hacer que los sitios web piensen que usted estaría interesado en productos para recién nacidos. En muchos países, las empresas pueden optar por compartir sus datos recopilados, lo que lleva a anuncios dirigidos específicamente en función de los datos.

La minería de datos es tan útil como precisa, y requiere la información más detallada posible, por lo que es un gran objetivo para los delincuentes. Al mismo tiempo, la información debe mantenerse anónima y segura para que los usuarios no puedan ser identificados o que les roben su identidad en función de esos datos.

Resumen de la lección

En esta lección, aprendió sobre los desafíos y obstáculos en la minería de datos, incluidos los datos complejos y ruidosos, los problemas de rendimiento y sus implicaciones de privacidad y seguridad.

Los datos complejos son datos que no se convierten fácilmente en algo más accesible, que a menudo se usan tal cual. Los datos ruidosos son datos que tienen errores que dificultan su análisis. Los errores provienen de herramientas de medición, procesos por lotes u otros problemas encontrados durante la recopilación de datos.

Los problemas de rendimiento incluyen la velocidad, la confiabilidad y el tiempo necesario para ejecutar algoritmos de minería de datos, lo que puede afectar la puntualidad de la información resultante. La paralelización divide los trabajos en tareas más pequeñas que varias computadoras pueden coordinar para completar el trabajo más rápido.

En cuanto a la privacidad y la seguridad, las secciones de recomendación del sitio web son el resultado de la extracción de datos de los usuarios para los artículos que podría estar dispuesto a comprar. Los datos también pueden dar pistas a otros sobre aspectos más privados de la vida, como viajes, trabajo y salud, en función de las cosas que compra o mira en otro lugar.

La minería de datos es más útil cuando es precisa y requiere información muy detallada, lo que significa que también es un objetivo para el mal uso. Al mismo tiempo, los datos deben ser anónimos y seguros para ayudar a proteger contra las amenazas causadas por la minería de datos (robo de identidad, rastreo, piratería, etc.).

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador