Scholar

Yusheng Dai

Google Scholar ID: tvjQ7GUAAAAJ

Monash University

MultimodalSpeech ProcessingComputer Vison

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

115

H-index

6

i10-index

5

Publications

12

Co-authors

7

list available

Contact

No contact links provided.

Publications

5 items

FreeSonic: Training-Free Temporal-Aware Decoupled Attention for Precise Audio Editing

2026

Cited

0

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

arXiv.org · 2026

Cited

0

ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling

2025

Cited

0

Latent Swap Joint Diffusion for Long-Form Audio Generation

2025

Cited

0

Phoneme-Level Contrastive Learning for User-Defined Keyword Spotting with Flexible Enrollment

2024

Cited

0

Resume (English only)

Co-authors

7 total

Professor, NERC-SLIP, USTC

Odette Scharenborg

Full Professor, Delft University of Technology, The Netherlands

sabato marco siniscalchi

Unipa, NTNU, GaTech

Shinji Watanabe

Carnegie Mellon University

Northwestern Polytechnical University

Associate Professor, Electrical Engineering, Columbia University