Aprender de la información
¿Alguna vez has notado que parece que recopilamos información sobre todo en estos días? Contamos el número de personas que ven determinados programas de televisión como Los Simpson y Castle . Hacemos un seguimiento de varias cosas en nuestros viajes anuales al dentista. Y recopilamos información sobre los hábitos de compra de los clientes en tiendas como Macy’s y Home Depot. Como puede imaginar, suma una gran cantidad de datos. Entonces, ¿no sería bueno si pudiéramos aprender algo nuevo de esa información? De hecho, podemos. Al aplicar el proceso de minería de datos, podemos hacer precisamente eso.
¿Qué es la minería de datos?
La minería de datos es el proceso de observar, ordenar y notar patrones en grandes conjuntos de información. A menudo hace uso del conocimiento y la tecnología de varias áreas técnicas que incluyen:
- Ciencias de la Computación
- inteligencia artificial
- aprendizaje automático
- bases de datos y tecnología de bases de datos
- Estadísticas
Al final, el objetivo es derivar conclusiones lógicas de conjuntos de datos aparentemente aleatorios.
Veamos un ejemplo sencillo. Digamos que tenemos el siguiente conjunto de números; 9, 3, 0, 15, 12, 6. Parecen aleatorios, pero ¿lo son? Ordénelos, del más pequeño al más grande. Esto da; 0, 3, 6, 9, 12, 15. A continuación, busquemos un patrón. Una mirada cercana revela que estos números representan una secuencia. En particular, cada valor de la secuencia (i) se puede representar mediante la fórmula:
i = 3k, donde k = 0, 1, 2, 3, 4, 5
Incluso podemos dar un paso más y predecir que el siguiente número de la secuencia sería 18 (3 x 6). Por supuesto, este ejemplo es trivial, pero entiendes la idea.
¿Qué es un algoritmo de minería de datos?
Un algoritmo de minería de datos es una descripción formalizada de los procesos similar a la utilizada en el ejemplo anterior. En otras palabras, es una descripción paso a paso del procedimiento o tema utilizado para darle orden y significado a un conjunto de información. Algunos son bastante simples y requieren poco de comprensión e implementación. Otros son muy complejos y requieren un estudio y un esfuerzo importantes para implementar. Al final, pueden adoptar muchas formas, en función de los datos a considerar y del resultado que se desee obtener.
¿Cuáles son algunos ejemplos de algoritmos de minería de datos?
Hay muchos, muchos algoritmos de minería de datos, muchos más de los que se pueden contar. Aquí hay una lista de algunos de los más comunes. Cada uno es diferente de los demás, de alguna manera significativa:
- C4.5 : este algoritmo es un clasificador, lo que significa que utiliza un conjunto de datos preagrupados o clasificados para determinar el grupo del siguiente dato adquirido. Las empresas a menudo usan este algoritmo para crear los scripts que usan sus equipos de soporte cuando hablan por teléfono. Si esto está mal, entonces pasan a este conjunto de preguntas. Luego, si eso está mal, van a ese conjunto de preguntas, etc.
- K-Means : este algoritmo crea agrupaciones o grupos de datos similares. Esto es diferente de C4.5 en que los grupos no se conocen de antemano. Se crean a partir de los propios datos. El establecimiento médico a menudo utiliza este enfoque para determinar las tendencias en los datos del historial médico.
- Apriori : este algoritmo aprende las relaciones y correlaciones entre los elementos de datos en una base de datos y usa la información para sacar conclusiones. El ejemplo de i = 3k anterior, cae en esta categoría.
- PageRank : este algoritmo determina la importancia relativa de un objeto, en un grupo relacionado de objetos, examinando las relaciones entre ellos. Los equipos de desarrollo a menudo utilizan este enfoque al decidir qué problemas solucionar en un producto y el orden en que se solucionan.
Resumen de la lección
En resumen, la minería de datos es el proceso de manipular información con el propósito de aprender algo de ella. Un algoritmo de minería de datos es la versión formalizada de eso. Existen muchos algoritmos de minería de datos. Algunos notables son; C4.5 , K-Means , Apriori y PageRank . Cada uno tiene una forma y un resultado diferentes, según la composición de los datos y lo que pretenda aprender de ellos.
Explora más sobre este tema
Selecciona un tema y sigue aprendiendo...
