Agrupación jerárquica divisiva: ejemplo y análisis

¿Quieres explorar más? 📂 Explorar Categorías 🔥 Tendencias 🎓 Cursos

Si alguna vez has tenido que clasificar un conjunto de datos sin conocer previamente las etiquetas de los grupos, probablemente te hayas topado con el análisis de clústeres. Dentro de este campo, la agrupación jerárquica divisiva (también llamada divisive clustering o DIANA) es una de las estrategias más intuitivas pero poderosas: parte de un solo grupo y lo divide recursivamente hasta obtener clusters individuales. En este artículo aprenderás cómo funciona paso a paso, verás un ejemplo numérico completo y analizarás sus ventajas, limitaciones y aplicaciones reales.

¿Qué es la agrupación jerárquica divisiva y por qué debería importarte?

A diferencia del enfoque aglomerativo (que une elementos de abajo hacia arriba), el método divisivo trabaja de arriba hacia abajo. Imagina que tienes todos tus datos como una única “gran familia” y, en cada paso, decides cómo separarlos en dos ramas más pequeñas basándote en la distancia o similitud entre ellos.

La gran ventaja conceptual es que no necesitas predefinir el número de clústeres finales: el algoritmo decide cuándo parar (por ejemplo, cuando cada grupo contiene un solo punto o cuando se alcanza una disimilitud máxima permitida). Esto lo hace ideal para exploración inicial de datos, detección de anomalías y segmentación jerárquica en biología, marketing o redes sociales.

✅ Dato clave para retener: La agrupación divisiva comienza con 1 clúster que contiene todos los elementos y termina con N clústeres de un solo elemento. En cada iteración, divide el clúster con mayor diámetro o heterogeneidad interna.

¿Cómo funciona el algoritmo divisivo (DIANA)? – Paso a paso

Antes de ver un ejemplo numérico, entendamos la lógica general del algoritmo DIANA (Divisive ANAlysis). Para cada clúster actual, se selecciona aquel que va a dividirse siguiendo estos pasos:

Tema relacionado:
Simbolismo en Edipo Rey de Sófocles: Resumen y análisis

Seleccionar el clúster a dividir – Normalmente, el clúster con el punto más lejano a la media (mayor diámetro) o el que maximice la distancia intra-cluster.
Elegir un punto semilla inicial – El punto con la distancia promedio más grande hacia los demás dentro del clúster.
Formar dos grupos – Asignar cada elemento restante al grupo de su semilla más cercana (o mediante la distancia media).
Refinar la división – Reasignar elementos si mejora la cohesión.
Repetir – Aplicar el mismo proceso a cada nuevo clúster hasta cumplir el criterio de parada.

Este enfoque es más costoso computacionalmente que el aglomerativo (O(n² log n) en el mejor de los casos), pero aporta una visión top-down muy útil cuando se sospecha que los datos tienen una estructura jerárquica natural desde lo general a lo particular.

Ejemplo completo paso a paso: 6 puntos en un plano cartesiano

Apliquemos la agrupación jerárquica divisiva a un conjunto pequeño de datos para que puedas seguir cada operación con claridad.

Datos:
A(1,1), B(1,2), C(2,2), D(5,5), E(6,5), F(6,6)

Usaremos la distancia euclidiana y el criterio de mayor diámetro (distancia máxima entre dos puntos dentro del clúster) para decidir qué clúster dividir en cada paso.

Paso 0 – Clúster inicial

Todos los puntos juntos:
Clúster X0 = {A, B, C, D, E, F}

Tema relacionado:
Análisis de Variaciones: Definición, importancia y aplicación práctica

Calculamos el diámetro de X0:

Distancias relevantes: entre {A y F} = √((6-1)²+(6-1)²)=√(25+25)=√50≈7.07
Entre {A y E} = √((6-1)²+(5-1)²)=√(25+16)=√41≈6.40
Entre {B y F} = √((6-1)²+(6-2)²)=√(25+16)=√41≈6.40
Entre {C y F} = √((6-2)²+(6-2)²)=√(16+16)=√32≈5.66
Entre {D y A} = √((5-1)²+(5-1)²)=√(16+16)=5.66

El diámetro máximo es entre A y F ≈ 7.07.

Como solo hay un clúster, lo dividimos.

Paso 1 – Dividir el clúster X0

1.1 Elegir semillas iniciales
Para el clúster X0, encontramos el punto con la mayor distancia promedio hacia los demás.
Hagamos cálculos rápidos:

Punto A: distancias a B=1, a C=√2≈1.41, a D=√32≈5.66, a E=√41≈6.40, a F=7.07. Promedio = (1+1.41+5.66+6.40+7.07)/5≈4.31
Punto F: distancias a E=1, a D=√2≈1.41, a C=√32≈5.66, a B=√41≈6.40, a A=7.07. Promedio = (1+1.41+5.66+6.40+7.07)/5≈4.31 (mismo valor por simetría)
Punto D: distancias a E=1, a F=√2≈1.41, a C=√18≈4.24, a B=√25=5, a A=5.66. Promedio = (1+1.41+4.24+5+5.66)/5≈3.46

Los puntos con mayor promedio son A y F. Elegimos el primero que aparezca: A como semilla del grupo1 y buscamos el punto más lejano a A, que es F (7.07). Entonces:
Grupo1 semilla = A, Grupo2 semilla = F.

Tema relacionado:
Análisis de Campañas Emocionales Efectivas (Neuromarketing)

1.2 Asignar elementos restantes
Tomamos B, C, D, E y los asignamos al grupo cuya semilla esté más cerca.

B(1,2): distancia a A=1, a F=√((6-1)²+(6-2)²)=√(25+16)=6.40 → más cerca de A → grupo1
C(2,2): distancia a A=√((2-1)²+(2-1)²)=√2≈1.41, a F=√((6-2)²+(6-2)²)=√32≈5.66 → grupo1
D(5,5): distancia a A=√((5-1)²+(5-1)²)=5.66, a F=√((6-5)²+(6-5)²)=√2≈1.41 → grupo2
E(6,5): distancia a A=√((6-1)²+(5-1)²)=6.40, a F=1 → grupo2

División inicial:
G1 = {A, B, C}
G2 = {D, E, F}

1.3 Refinamiento (en DIANA clásico se puede reasignar si mejora la distancia intra-grupo; aquí lo dejamos así por simplicidad, ya que la separación es clara).

Ahora tenemos dos clústeres: G1 y G2.

Paso 2 – ¿Qué clúster dividir a continuación?

Calculamos el diámetro de cada uno:

G1: puntos {A(1,1), B(1,2), C(2,2)}. Distancia máxima: A–C = √((2-1)²+(2-1)²)=1.41, B–C=1, A–B=1. Diámetro = 1.41
G2: puntos {D(5,5), E(6,5), F(6,6)}. Distancia máxima: D–F = √((6-5)²+(6-5)²)=1.41, D–E=1, E–F=1. Diámetro = 1.41

Ambos tienen igual diámetro. Elegimos arbitrariamente dividir G1.

Paso 3 – Dividir G1 = {A, B, C}

3.1 Elegir semillas – El punto con mayor distancia promedio dentro de G1:

A: dist a B=1, a C=1.41 → promedio=1.205
B: dist a A=1, a C=1 → promedio=1
C: dist a A=1.41, a B=1 → promedio=1.205

Seleccionamos A como primera semilla. Punto más lejano a A dentro de G1 es C (1.41).
Semillas: G1a = A, G1b = C.

3.2 Asignar B
B(1,2): distancia a A=1, a C=1 → empate. Por convención asignamos a la primera semilla (A).
Entonces:
G1a = {A, B}
G1b = {C}

Refinamiento – No hay cambios posibles.

Paso 4 – Dividir G2 = {D, E, F}

4.1 Elegir semillas – Mayor distancia promedio:

D: dist a E=1, a F=1.41 → promedio=1.205
E: dist a D=1, a F=1 → promedio=1
F: dist a D=1.41, a E=1 → promedio=1.205

Primera semilla = D. Punto más lejano = F (1.41). Semillas: D y F.

4.2 Asignar E
E(6,5): distancia a D=1, a F=1 → empate → va a D.
G2a = {D, E}
G2b = {F}

Paso 5 – Criterio de parada

Cada clúster resultante tiene tamaño 1 o 2. Si detenemos cuando todos los clústeres tienen elementos idénticos o distancia máxima menor a un umbral (ej. 1.5), podemos parar aquí.
Clústeres finales: {A,B}, {C}, {D,E}, {F}.

Dendrograma resultante (interpretación visual)

El dendrograma de este proceso divisivo mostraría:

Nivel 0 – Un grupo con todos (A,B,C,D,E,F)
Nivel 1 – Dos ramas: (A,B,C) y (D,E,F)
Nivel 2 – Rama izquierda: (A,B) y (C); Rama derecha: (D,E) y (F)

Esto revela una estructura natural: tres puntos cercanos (zona inferior izquierda) y tres puntos cercanos (zona superior derecha), con una subdivisión donde C se separa temprano de A/B y F se separa de D/E.

Análisis de resultados y comparación con método aglomerativo

Coherencia semántica – El algoritmo detectó los dos grupos principales que a simple vista se ven en los datos.
Sensibilidad a la elección de semillas – En la división inicial, usar A y F fue adecuado; pero si se hubieran elegido B y D, el resultado podría variar. Muchas implementaciones usan el punto más alejado de la media para robustecer.
Costo computacional – Para este ejemplo pequeño es trivial, pero si tuvieras 1000 puntos, el método divisivo puro es más lento que el aglomerativo (aunque existen optimizaciones).
Interpretabilidad – El dendrograma divisivo es tan claro como el aglomerativo, pero el proceso mental es más natural para quien piensa en “segmentar grandes grupos en subgrupos”.

Aplicaciones reales del clustering divisivo

Segmentación de clientes – Partir de todos los clientes de una empresa e ir dividiendo por comportamiento de compra hasta llegar a perfiles concretos.
Clasificación de textos – Agrupar documentos por tema general (ej. política) y luego subdividir en subtemas (política económica, política exterior).
Bioinformática – Clasificar especies desde el reino hasta la especie (aunque allí se usa más el aglomerativo, el divisivo ayuda a validar jerarquías).
Detección de outliers – Los puntos que se separan en niveles muy altos del dendrograma son candidatos a anomalías.

Limitaciones importantes que debes conocer

Decisiones tempranas irreversibles – Si en el primer nivel separas mal dos grupos, no hay vuelta atrás.
Inestabilidad con ruido – Puntos atípicos pueden distorsionar la selección de semillas.
Alta complejidad – Para conjuntos grandes (>10,000 puntos) necesitas aproximaciones o algoritmos híbridos.
Dependencia de la métrica de distancia – Usar Manhattan en vez de Euclidiana cambia totalmente el dendrograma.

Recomendaciones prácticas para tu análisis

Estandariza tus datos – Si las variables tienen escalas diferentes, usa z-score o rango unitario.
Prueba distintos criterios de división – Diámetro máximo, varianza máxima o distancia media al centroide.
Valida con silueta o codo – Para elegir el número de clústeres finales en un nivel dado del dendrograma.
Visualiza siempre – Un dendrograma bien rotulado vale más que mil coeficientes.

Resultados de aprendizaje

Después de leer este artículo, el estudiante habrá aprendido:

A diferenciar el enfoque divisivo del aglomerativo en clustering jerárquico.
A aplicar paso a paso el algoritmo DIANA sobre un conjunto de datos numérico pequeño.
A calcular el diámetro de un clúster y usarlo como criterio de división.
A interpretar un dendrograma generado por método divisivo.
A identificar ventajas (no requiere predefinir clústeres, visión top-down) y limitaciones (coste computacional, decisiones irreversibles).
A seleccionar semillas iniciales basándose en la distancia promedio máxima.
A reconocer casos de uso reales en marketing, bioinformática y detección de anomalías.
A evitar errores comunes como no estandarizar los datos o ignorar el refinamiento de asignaciones.

Twittear

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo Editor y fundador