Mapeo de datos: herramientas y prácticas recomendadas

¿Cómo se hace el mapeo de datos?

Un modelo de datos es el término utilizado para definir cómo se organizan los datos tanto lógica como físicamente en cualquier aplicación informática. Un concepto importante tanto en el modelado de datos como en el mapeo de datos es garantizar que cada registro de datos (combinación de muchos elementos de datos) pueda identificarse mediante un subconjunto único de esos datos. Ese subconjunto único se conoce como clave del registro de datos . Un modelo de datos podría describir que una persona puede ser identificada de forma única mediante su número de teléfono celular y el código postal de su casa, aunque el registro completo asociado con esa persona también puede incluir su número de teléfono de casa, dirección de correo electrónico, dirección postal de su casa y su nacimiento fecha.

Ahora que se siente aliviado de que nadie lo vaya a cuestionar sobre todos esos datos geográficos, tal vez su mente se haya adelantado y ya se esté preguntando: ” ¿Por qué alguien querría saber cómo se relacionan los datos de una aplicación con los datos de otra aplicación? ”

Digamos que acaba de comprar un teléfono celular nuevo. Su nuevo dispositivo está fabricado por un fabricante diferente al de su dispositivo anterior. Es probable que desee simplemente transferir toda su información de contacto (números de teléfono, direcciones y correos electrónicos) de su dispositivo anterior a su nuevo dispositivo. También es probable que sus datos de contacto estén almacenados en su teléfono antiguo en un formato que no sea legible por su nuevo teléfono.

El mapeo de datos implica analizar cómo mover datos de un modelo de datos a otro o cómo fusionar datos de varios modelos de datos en uno. Si su teléfono anterior almacenaba información de contacto en el formato:

  • Nombre, apellido, correo electrónico, teléfono de casa, teléfono celular, dirección de trabajo, dirección de casa, fecha de nacimiento

Y su nuevo teléfono almacena la información de contacto en el formato:

  • Apellido, nombre, inicial del segundo nombre, dirección particular, dirección del trabajo, teléfono de la casa, teléfono celular, correo electrónico

Simplemente copiar la información de su antigua aplicación de contacto o base de datos a la nueva no será exitoso. El mapeo de datos consiste en crear un conjunto de reglas sobre cómo hacer que dicha conversión o combinación de datos funcione.

Por ejemplo, si está escrito en inglés, las reglas podrían verse así:

  • Coloque los datos del primer campo del registro antiguo en el segundo campo del nuevo registro.
  • Coloque los datos en el segundo campo del registro antiguo en el primer campo del nuevo registro. Si el elemento de datos no encaja en el nuevo campo porque los tamaños de los campos son diferentes, en lugar de enviar un mensaje de error, simplemente acepte tantos caracteres como sea posible y elimine el resto.

Como puede adivinar, este es un ejemplo simplificado, pero le da una idea de cómo funciona el mapeo de datos.

Herramientas

Las herramientas de mapeo de datos ayudan a administrar la información sobre los datos, además de simplemente rastrear la ubicación de origen y destino de los datos. En la era actual en la que existe una aplicación para eso , existen herramientas disponibles para ayudar a los programadores de computadoras y analistas de datos con el mapeo de datos. Pueden seleccionar una herramienta para ayudarlos, al igual que puede seleccionar una aplicación para su teléfono celular de la tienda de aplicaciones, o pueden diseñar su propia herramienta en forma de hoja de cálculo. Si está interesado en cómo una aplicación disponible comercialmente puede ayudar con el mapeo de datos, un producto para investigar es Altova Mapforce, que es popular debido a su compatibilidad con muchos tipos de archivos.

Mejores prácticas

Aunque un analista de datos puede usar una herramienta para ayudar con el mapeo de datos, es en última instancia la responsabilidad del analista determinar qué datos se mapearán y cómo se capturará la información sobre esos datos. Estas decisiones se toman utilizando las mejores prácticas comunes entre aquellos que hacen mapeo de datos de manera profesional.

Algunas de esas mejores prácticas incluyen:

  • Mantener relaciones entre los elementos de datos (dos personas con nombres diferentes viven en la misma casa y, por lo tanto, tienen el mismo número de teléfono de la casa)
  • Identificar y ocultar datos personales privados, como información financiera, información de salud o un número de seguro social.
  • Identificar y determinar cómo resolver excepciones de datos o escenarios en los que los datos involucrados no se ajustan a las reglas (¿Qué sucede si no hay un nombre o apellido asociado con un correo electrónico y un número de teléfono? ¿Qué sucede si una persona tiene dos direcciones de trabajo pero no hay ¿Hay solo un campo de destino para la dirección del trabajo?)
  • Resolver problemas semánticos donde el mismo dato se llama de dos formas diferentes (no todas las culturas usan el término ‘apellido’, sino que usan ‘apellido’ y en lugar de ‘nombre’ usan ‘nombre de pila’)
  • Permitir que el programador asigne valores predeterminados para campos nulos
  • Permitiendo al programador identificar condiciones para manejar ciertos tipos de datos. (Si un campo de número de teléfono solo contiene 7 dígitos, justifique a la derecha el campo y deje el código de área en blanco)
  • Asegurarse de que los datos de todos los registros en un campo en particular tengan el mismo formato (los números de teléfono deben verse como (xxx) xxx-xxxx y las fechas como mm / dd / aaaa)
  • Proporcionar una alerta de que no todos los campos de datos se están transfiriendo del modelo de datos antiguo al nuevo (la fecha de nacimiento, en nuestro ejemplo, no es un campo en el nuevo formato de registro)

Los analistas de datos siempre consideran cómo se utilizarán los datos y físicamente cómo se almacenarán los datos, ya que deciden qué problemas deben resolverse para el escenario de fusión o conversión de datos en el que están trabajando.

Resumen de la lección

En el mundo actual de tecnología avanzada y datos intensos, el mapeo de datos es un concepto clave para hacer que los datos en una aplicación o entorno sean comprensibles en otra. Aquellos de nosotros que estamos cansados ​​de volver a escribir nuestra dirección y número de teléfono (o cualquier otro dato) en cada nueva aplicación que encontramos, probablemente nos complace comprender que existen prácticas estándar para aprovechar nuestros datos de manera efectiva desde los lugares en los que residen actualmente. nuevo software que nos gustaría probar.