¿Qué es un lago de datos? – Definición, propósito y ejemplo

Rodrigo Ricardo Publicado el 14 noviembre, 2020 6 minutos y 7 segundos de lectura

Data Lakes: reserva natural de datos de la industria

Podría pensar que un lago de datos es solo la versión de ‘próxima generación’ de un almacén de datos o una gran plataforma de base de datos, pero no es cierto. Si bien el lago y el almacén son similares en concepto, en la práctica son sistemas diferentes que están destinados a ser utilizados para diferentes propósitos.

La definición técnica de un lago de datos es que es un tipo de repositorio de datos que almacena conjuntos grandes y variados de datos sin procesar en su formato nativo. Después de todo, no sabrá qué hay en el lago hasta que se sumerja para verlo por sí mismo, literalmente.

Los lagos de datos almacenan y muestran una vista sin refinar de todos los datos, lo que significa que es difícil clasificarlos y buscarlos sin herramientas y experiencia especializadas. Los expertos con experiencia en el trabajo con lagos de datos y otros almacenes de información se denominan científicos de datos.

Lagos de datos frente a almacenes de datos

Piense en una base de datos o almacén de datos como una gran tienda de información, una caja grande o una tienda de comestibles, por ejemplo. En la tienda, vendes muchos artículos diferentes; algunos son totalmente procesados ​​como los cereales y algunas carnes, mientras que otros pueden ser materias primas o incluso intermedios (como comidas precocinadas).

El lago de datos, por otro lado, es básicamente un gran espacio de materias primas puras (por ejemplo, animales vivos que proporcionan carnes, metales sin refinar, etc.) que permanece en su estado natural y debe recolectarse y muestrearse antes de su procesamiento.

Hay cuatro áreas principales en las que los lagos de datos y los almacenes de datos son diferentes: estructura de datos, propósito de los datos, usuarios y accesibilidad.

ZonaLagos de datosAlmacenes de datos
Estructura de datosCrudoProcesada
Finalidad de los datosNo determinado todavíaInvestigación y desarrollo empresarial
UsuariosCientíficos de datosProfesionales de la industria
AccesibilidadAltamente accesible y rápido de actualizarComplicado y las actualizaciones son lentas

Ahora veamos las diferencias desde una perspectiva más técnica.

Los almacenes de datos son bases de datos optimizadas para analizar datos relacionales provenientes de otros sistemas de información y aplicaciones empresariales. El sistema está optimizado para consultas rápidas y los resultados ayudan a generar informes y análisis comerciales. Todos los datos se mejoran y procesan para que puedan actuar como una fuente de información confiable para la organización.

Data Lakes , por otro lado, almacena datos de aplicaciones comerciales internas y datos no relacionales de fuentes externas a la organización o incluso a la propia industria. Por ejemplo, los lagos de datos podrían contener registros sin procesar recopilados directamente de aplicaciones de teléfonos móviles, hardware inteligente o incluso plataformas de redes sociales. Un esquema de base de datos y una estructura de información no se configuran ni se utilizan, lo que significa que cada bit y byte se puede almacenar sin una planificación cuidadosa o un seguimiento del propósito futuro que pueda tener. También hay otros análisis posibles en un lago de datos además de las consultas básicas de la base de datos, como búsquedas de palabras y texto, análisis en tiempo real e incluso aprendizaje automático que se pueden utilizar para descubrir mejores conocimientos y tendencias.

Dependiendo de sus requisitos, una organización típica puede construir un almacén de datos y un lago de datos, ya que responden a diferentes necesidades y propósitos.

A continuación, veamos qué tipos de industrias utilizan los lagos de datos y el propósito del lago de datos en el ámbito de la tecnología.

Data Lakes: propósito y ejemplos

El propósito exacto del lago de datos es actuar como una fuente de información no regulada y capturar y retener esa información para algún uso futuro. Si bien algunas industrias pueden beneficiarse más de un almacén de datos estructurado que de un lago de datos exótico, hay situaciones en las que el lago de datos es popular, como dentro de las instituciones educativas.

En el campo educativo, las escuelas y universidades de todo tipo suelen recopilar y crear informes en una variedad de formatos y realizar un seguimiento de lo que definen como «progreso» de formas aún más diversas. Sin embargo, aún deben seguir las regulaciones y asegurarse de que los estudiantes cumplan con sus objetivos educativos.

Para mantenerse alerta a problemas de educación, asistencia, etc., estas instituciones pueden hacer un buen uso de los lagos de datos para manejar los grandes volúmenes de datos no estructurados y sin refinar que recopilan cada año.

Analizar muchos datos diferentes (como calificaciones, registros de asistencia y disciplina, compras de comidas, etc.) dentro de los lagos de datos no solo puede ayudar a garantizar que los estudiantes tengan éxito en la educación, sino que también puede ayudar a predecir problemas antes de que sucedan. Las soluciones flexibles basadas en datos también pueden agilizar la facturación, mejorar la recaudación de fondos y más.

Otro lugar donde el lago de datos es bastante útil es dentro de la industria del transporte. Hay muchos beneficios en mejorar la comprensión de las tendencias y hacer predicciones efectivas, como saber dónde ocurren los accidentes con mayor frecuencia o si hay eventos naturales desconocidos o problemas relacionados con la construcción que afectan los tiempos de tráfico.

En la gestión de la cadena de suministro (un subconjunto del transporte), la capacidad de predicción desarrollada utilizando datos flexibles en un lago de datos puede tener grandes beneficios, a saber, reducción de costos y mejora del seguimiento de rutas, al examinar los datos recopilados por y dentro de la tubería de transporte.

Resumen de la lección

En esta lección, aprendió sobre el concepto y el propósito de los lagos de datos, así como también descubrió algunos ejemplos de lagos de datos dentro de industrias globales.

Un lago de datos es un repositorio que se utiliza para almacenar grandes y variados conjuntos de datos sin procesar, completamente desestructurados y sin clasificar, sin intentar procesarlos primero. Un almacén de datos es un depósito que se utiliza para almacenar grandes y variados conjuntos de datos procesados, completamente clasificados y listos para análisis o informes.

Los científicos de datos utilizan los lagos de datos, mientras que los profesionales de la industria utilizan los almacenes de datos. Hay cuatro áreas donde estos conceptos se pueden diferenciar: estructura de datos, propósito de los datos, usuarios y accesibilidad. La información almacenada dentro de un lago de datos no siempre tiene un propósito específico, mientras que un almacén de datos solo almacena los datos que se requieren para estar allí.

Ejemplos de industrias en las que los lagos de datos son muy útiles como repositorio y herramienta son la educación, el transporte y la gestión de la cadena de suministro.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador