blog_clusters

¿Importa qué método de clustering usamos?

Gerardo Mora 09 Ene 2026 6 min de lectura

Si trabajas en epidemiología nutricional y usas análisis de clusters para identificar patrones, probablemente has elegido un método (K-means, análisis jerárquico, quizá análisis de clases latentes) y lo has aplicado a tus datos. Pero ¿te has preguntado qué pasaría si hubieras elegido otro método? ¿Obtendrías los mismos patrones?

Esta pregunta nos inquietaba mientras analizábamos datos para la tesis doctoral. Y decidimos investigarla sistemáticamente. El resultado es mi primera publicación de primer autor, que acaba de salir en Nutrients.

El problema: un solo método, ninguna comparación

La crononutrición (el estudio de cómo los aspectos temporales de la alimentación afectan los ritmos circadianos y la salud) es un campo emergente. Sabemos que cenar tarde afecta la tolerancia a la glucosa, que las ventanas de alimentación prolongadas aumentan el riesgo metabólico, y que la diferencia en horarios de comida entre días libres y días de trabajo o escuela (lo que algunos llaman eating jet lag) se asocia con mayor índice de masa corporal.

Estos comportamientos temporales se agrupan en patrones. Y la forma más común de identificarlos es mediante análisis de clusters, una técnica de aprendizaje automático no supervisado que agrupa observaciones según su similitud.

El problema: la mayoría de los estudios en crononutrición utilizan un solo método de clustering sin comparar alternativas. En nuestra revisión de la literatura encontramos que ningún estudio había comparado sistemáticamente diferentes técnicas de clustering para datos de crononutrición. Además, no existían patrones de horarios de comida identificados en estudiantes universitarios, ni estudios de este tipo en poblaciones latinoamericanas.

Lo que hicimos

Estudiamos a 388 estudiantes universitarios de la Universidad de Guadalajara (72.8% mujeres, mediana de edad 20 años). Medimos tres variables: los horarios habituales de desayuno, comida y cena.

Aplicamos cuatro métodos de clustering:

Métodos tradicionales: K-means y clustering jerárquico con enlace de Ward
Métodos no tradicionales: Modelos de Mezclas Gaussianas (GMM) y clustering espectral

Para evaluar qué tan similares eran los resultados entre métodos, calculamos el Índice de Rand Ajustado (ARI), una medida de concordancia que va de 0 (acuerdo aleatorio) a 1 (acuerdo perfecto). También utilizamos seis índices de validación interna para evaluar la calidad de los clusters.

Lo que encontramos

Cinco patrones de horarios de comida

Los cuatro métodos identificaron patrones distintos y estadísticamente significativos. En conjunto, emergieron cinco tipos de patrones que se pueden observar en la Figura 2.

Horarios de comida por patrón y método de clustering. Cada fila representa un método diferente; cada columna una comida del …
Figura 2.

Horarios de comida por patrón y método de clustering. Cada fila representa un método diferente; cada columna una comida del día. Los colores identifican los cinco patrones: Temprano (amarillo), Temprano-Intermedio (naranja), Tardío-Intermedio (azul), Tardío (azul-oscuro) y Tardío con desayuno temprano (morado).

Fuente: Mora-Almanza et al. (2026) DOI: 10.3390/nu18020190

La figura muestra algo importante: los primeros tres patrones (Temprano, Temprano-Intermedio y Tardío-Intermedio) son identificados de forma consistente por los cuatro métodos. Sin embargo, el cuarto patrón difiere: mientras K-means y el método jerárquico identifican un patrón "Tardío" con horarios consistentemente retrasados (desayuno ~10:30, comida ~17:00, cena ~22:30), GMM y el clustering espectral detectan un patrón diferente que llamamos "Tardío con desayuno temprano" (desayuno ~07:00, pero comida ~17:00 y cena ~22:30).

Esta diferencia no es trivial. El patrón "Tardío con desayuno temprano" describe estudiantes que, a pesar de tener un desayuno temprano, retrasan marcadamente sus otras comidas. Es un perfil conductual distinto que solo algunos métodos logran capturar.

Concordancia moderada entre métodos

¿Qué tan de acuerdo estuvieron los métodos? El ARI promedio fue 0.376, lo que indica concordancia moderada. Las concordancias por pares variaron:

Mayor concordancia: Jerárquico y Espectral (ARI = 0.485)
Menor concordancia: GMM y Jerárquico (ARI = 0.271)

Los índices de validación no coinciden en cuál es el mejor método

Un hallazgo clave: ningún método dominó en todas las métricas de validación interna. Esto importa porque diferentes índices miden diferentes aspectos de la calidad de los clusters.

K-means obtuvo los mejores valores en:
Coeficiente de silueta (0.250): mide qué tan bien separados están los clusters
Índice de Dunn (0.045): evalúa la compacidad y separación
Índice de Calinski-Harabasz (149.8): ratio entre dispersión inter e intra-cluster

GMM destacó en:
Estadístico Gamma de Hubert (0.493): correlación entre distancias y asignaciones
Índice de Davies-Bouldin (1.262): similitud promedio entre clusters (menor es mejor)
Entropía (1.054): distribución de observaciones en clusters (menor indica clusters más definidos)

La implicación práctica: reportar solo un índice de validación puede dar una imagen incompleta. Diferentes métricas capturan diferentes propiedades de los clusters, y la elección del índice puede favorecer ciertos algoritmos.

Los patrones tienen sentido biológico

Una pregunta clave: ¿estos patrones identificados estadísticamente tienen significado biológico? Encontramos evidencia de que sí:

Cronotipo: Los individuos con cronotipo matutino estaban sobrerrepresentados en los clusters tempranos (34-37%) comparado con los clusters tardíos (2-16%). Esta alineación entre preferencia circadiana autorreportada y patrones de horarios de comida derivados de datos sugiere validez convergente.

Calidad de la dieta: Los patrones tempranos mostraron significativamente mayor proporción de alimentación saludable comparado con los tardíos (41-46% vs 15-21%, p < 0.001). Este hallazgo fue consistente a través de los cuatro métodos.

Antropometría: No encontramos diferencias significativas en IMC ni circunferencia de cintura entre patrones. Esto probablemente refleja que nuestra muestra joven (mediana 20 años) con distribución antropométrica relativamente estrecha aún no ha acumulado las consecuencias a largo plazo de los patrones alimentarios.

¿Qué significa esto para la práctica?

La concordancia moderada (ARI = 0.376) tiene implicaciones concretas para investigadores que trabajan con análisis de clusters en nutrición.

Los métodos identifican estructuras similares pero no idénticas. Hay un "núcleo" de patrones que emerge independientemente del algoritmo (los tres primeros patrones en nuestro caso). Pero también hay patrones que solo algunos métodos capturan. Si hubiéramos usado solo K-means, nunca habríamos identificado el patrón "Tardío con desayuno temprano".

La elección del algoritmo afecta resultados concretos:
• El tamaño de los clusters varía según el método
• Las fronteras entre grupos se definen de forma diferente
• Patrones específicos pueden aparecer o desaparecer

Cada algoritmo enfatiza diferentes aspectos de la estructura de los datos. K-means busca minimizar la varianza dentro de cada cluster, asumiendo clusters esféricos de tamaño similar. Los métodos jerárquicos construyen una estructura anidada que permite explorar diferentes niveles de agrupación. GMM modela cada cluster como una distribución gaussiana, permitiendo formas elípticas y asignaciones probabilísticas. El clustering espectral puede detectar estructuras no convexas que otros métodos no ven.

Ningún algoritmo es universalmente superior. La "mejor" elección depende de las características de los datos, los objetivos del estudio y las preguntas que se busca responder.

La recomendación práctica

Del análisis de nuestros datos y la literatura metodológica, proponemos tres puntos:

1. Reportar transparentemente qué método de clustering y qué índices de validación se utilizaron, y por qué se eligieron
2. Considerar comparar múltiples métodos cuando sea factible, especialmente si los resultados informarán decisiones de salud pública o guías clínicas
3. No asumir que los patrones serían idénticos con un método diferente

El camino recorrido

Este artículo representa mi primera publicación de primer autor en una revista indexada. El proceso (desde la recolección de datos hasta ver el DOI asignado) tomó varios años y el apoyo de un equipo excepcional de investigadores y estudiantes.

Si te interesa profundizar, aquí están los recursos:

Paper completo: doi.org/10.3390/nu18020190
Código reproducible en R: doi.org/10.5281/zenodo.17795547
Video abstract: YouTube

En el futuro me gustaría crear un tutorial paso a paso donde puedas replicar este análisis usando el código y los datos compartidos. Si eso te interesaría, déjamelo saber.

La transparencia metodológica importa. Espero que este trabajo contribuya a que, como campo, reportemos mejor nuestras decisiones analíticas.

Mora-Almanza JG, Betancourt-Núñez A, Nava-Amante PA, Bernal-Orozco MF, Díaz-López A, Martínez JA, Vizmanos B. Traditional and Non-Traditional Clustering Techniques for Identifying Chrononutrition Patterns in University Students. Nutrients. 2026;18(2):190.

DOI

G

Gerardo Mora

Publicado el 09 de Enero de 2026