Multi-modal Dynamic Proxy Learning for Personalized Multiple Clustering

📅 2025-11-10

📈 Citations: 0

✨ Influential: 0

career value

183K/year

🤖 AI Summary

Existing multi-clustering methods struggle to identify user interests without manual intervention, while multimodal approaches are constrained by static semantics (e.g., predefined candidate words) and rigid fusion strategies, limiting adaptability to dataset-specific characteristics and dynamic feature interactions. To address these limitations, we propose a Dynamic Proxy Learning (DPL) framework that models user intent via learnable text proxies. Our method employs gated cross-modal alignment, dual-constrained proxy optimization, and dynamic candidate management to enable user-interest-driven discovery of diverse cluster structures. Furthermore, hard example mining and iterative clustering feedback are integrated to enhance discriminability and self-adaptivity. Extensive experiments on multiple multi-clustering benchmarks demonstrate significant improvements over state-of-the-art methods, validating DPL’s effectiveness in interest-aware clustering and its strong generalization capability across heterogeneous datasets.

Technology Category

Application Category

📝 Abstract

Multiple clustering aims to discover diverse latent structures from different perspectives, yet existing methods generate exhaustive clusterings without discerning user interest, necessitating laborious manual screening. Current multi-modal solutions suffer from static semantic rigidity: predefined candidate words fail to adapt to dataset-specific concepts, and fixed fusion strategies ignore evolving feature interactions. To overcome these limitations, we propose Multi-DProxy, a novel multi-modal dynamic proxy learning framework that leverages cross-modal alignment through learnable textual proxies. Multi-DProxy introduces 1) gated cross-modal fusion that synthesizes discriminative joint representations by adaptively modeling feature interactions. 2) dual-constraint proxy optimization where user interest constraints enforce semantic consistency with domain concepts while concept constraints employ hard example mining to enhance cluster discrimination. 3) dynamic candidate management that refines textual proxies through iterative clustering feedback. Therefore, Multi-DProxy not only effectively captures a user's interest through proxies but also enables the identification of relevant clusterings with greater precision. Extensive experiments demonstrate state-of-the-art performance with significant improvements over existing methods across a broad set of multi-clustering benchmarks.

Problem

Research questions and friction points this paper is trying to address.

Existing multiple clustering methods generate exhaustive results without discerning user interest

Current multi-modal solutions suffer from static semantic rigidity and fixed fusion strategies

Predefined candidate words fail to adapt to dataset-specific concepts and evolving interactions

Innovation

Methods, ideas, or system contributions that make the work stand out.

Learns textual proxies for cross-modal alignment

Uses gated fusion for adaptive feature interactions

Refines proxies via clustering feedback dynamically

🔎 Similar Papers

Self Supervised Correlation-based Permutations for Multi-View Clustering