Scholar

Minghui Fang

Google Scholar ID: 8c3I0RwAAAAJ

Zhejiang University

SpeechMulti-Modal LearningInformation Retrieval

Google Scholar↗

Citations & Impact

All-time

Citations

285

H-index

7

i10-index

6

Publications

20

Co-authors

4

list available

Contact

No contact links provided.

Publications

14 items

Entropy-based Coarse and Compressed Semantic Speech Representation Learning

2025

Cited

0

Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

2025

Cited

0

Open-set Cross Modal Generalization via Multimodal Unified Representation

2025

Cited

0

Vela: Scalable Embeddings with Voice Large Language Models for Multimodal Retrieval

2025

Cited

0

Rhythm Controllable and Efficient Zero-Shot Voice Conversion via Shortcut Flow Matching

2025

Cited

0

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

2025

Cited

0

Continual Cross-Modal Generalization

2025

Cited

0

Enhancing Expressive Voice Conversion with Discrete Pitch-Conditioned Flow Matching Model

2025

Cited

0

Resume (English only)

Co-authors

4 total

Zhejiang University

Zhejiang university

Zhejiang University

Xize Cheng（成曦泽）

Zhejiang University