Integración de datos en minería de datos

Rodrigo Ricardo Publicado el 10 noviembre, 2020 4 minutos y 47 segundos de lectura

Obtener más información

Recopilamos mucha información. Es una maravilla que podamos realizar un seguimiento de todo. Recopilamos personalmente información digital en forma de música o películas, las empresas recopilan información de ventas y contabilidad, y los gobiernos recopilan información sobre cuestiones fiscales y sociales. Pero, ¿es suficiente recopilar información? ¿No deberíamos obtener más de nuestros esfuerzos que una gran cantidad de información? De hecho, deberíamos. En esta época, también debemos obtener algo útil de la información que recopilamos, algo que ampliará los límites de lo que sabemos. Muchas técnicas y tecnologías pueden ayudar. Caen en la categoría general de minería de datos.

¿Qué es la minería de datos?

La minería de datos es un proceso de descubrimiento. Con eso nos referimos a un proceso que busca organizar y reconocer patrones en grandes cantidades de información. La minería de datos es multidisciplinaria, toma prestadas técnicas y conocimientos de

  • Inteligencia artificial
  • Ciencias de la Computación
  • Bases de datos
  • Aprendizaje automático
  • Estadísticas

En última instancia, el propósito de la minería de datos es derivar nueva información y conclusiones a partir de conjuntos de información aparentemente aleatorios.

Considera lo siguiente. Digamos que tenemos un conjunto de valores: 12, 4, 0, 20, 16 y 8. Un revoltijo de valores, pero tal vez podamos aprender algo de ellos. Apliquemos un poco de orden y organicemos estos valores de menor a mayor. El conjunto ahora es 0, 4, 8, 12, 16 y 20. Al examinar la lista, vemos que es una secuencia, específicamente, un conjunto de valores (i) que se adhieren a esta fórmula:

  • i = 4k, donde k = 0, 1, 2, 3, 4, 5

Usando esto, podemos llevar nuestra fórmula un paso más allá y esperar que el siguiente valor en la secuencia sea 24 (4 x 6). Utilizamos la minería de datos para organizar, reconocer, derivar nueva información y predecir utilizando un conjunto de información existente.

Las piezas crean un nuevo centro
Procesamiento de datos

Bien, ahora que tenemos la idea, veamos algo más del mundo real. Un servicio de transmisión de video como Netflix rastrea las películas que ve en el transcurso de un mes. Hacen esto para garantizar que se le cobre correctamente, pero ese no es el único propósito que tienen para la información. Al observar más de cerca las fechas en las que vio las películas y los actores involucrados en esas películas, podrían deducir que su actor favorito es Robert De Niro, y el sábado por la noche es la noche de películas. Un correo electrónico cuidadosamente escrito que se le envió el viernes con una lista de una película de De Niro que no ha transmitido podría generar más ventas para Netflix.

¿Qué es la integración de datos?

Conceptualmente, la integración de datos es sencilla: la nueva información se fusiona con información que ya existe. Cualquier empresa que recopile información con regularidad se preocupa por la integración de datos. Las empresas quieren que su información sea precisa y esté actualizada. Si lo piensa, la integración de datos afecta incluso a las personas. Por ejemplo, recopilamos un nuevo número de teléfono de nuestros amigos, agregamos nueva música a nuestros teléfonos celulares o recibimos un correo electrónico personal. Estamos recibiendo nueva información y fusionándola con información existente. La mayor parte de este proceso es transparente para nosotros porque ocurre entre bastidores, pero de todos modos está ahí.

Las piezas se fusionan para formar el todo
Integración de datos

Lo mismo ocurre con las empresas. Realizan una operación de integración de datos al menos una vez al día y, a veces, más. Una empresa como Indigo Chapters recibe nuevas existencias (libros) con regularidad y debe combinar la información de inventario de esos libros con la información de inventario existente. Además, la información de ventas diaria debe integrarse con información actual para que la empresa pueda determinar una imagen clara de su rentabilidad. La misma idea se extiende a otros negocios.

¿Cómo se ve afectada la minería de datos por la integración de datos?

La minería de datos se ve afectada por la integración de datos de dos formas significativas. Primero, la información nueva que llega debe integrarse antes de intentar cualquier esfuerzo de minería de datos. Esto es para que todo lo que se derive de los datos sea preciso y relevante. Como puede imaginar, esto puede ser un desafío, particularmente en entornos donde la información fluye constantemente. En segundo lugar, cualquier resultado obtenido del esfuerzo de minería de datos también debe integrarse en el conjunto de información. Este patrón cíclico o iterativo (repetitivo) es característico de nuestro mundo en estos días debido a la velocidad a la que se mueve y debido a nuestro apetito por cada vez más información.

Resumen de la lección

En resumen, la minería de datos es un proceso que organiza y reconoce patrones en grandes cantidades de información. La integración de datos es el proceso de fusionar nueva información con información que ya existe. La integración de datos afecta la minería de datos de dos maneras. Primero, la información entrante debe integrarse antes de que pueda ocurrir la minería de datos. En segundo lugar, los resultados de la minería de datos deben integrarse con la información existente. Este patrón cíclico es indicativo de nuestro mundo en estos días.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador