Scholar

Yusuke Fujita

Google Scholar ID: 8e5X3BQAAAAJ

SB Intuitions

Automatic Speech RecognitionSpeech SeparationSpeaker Diarization

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

2,425

H-index

i10-index

Publications

Co-authors

list available

Contact

TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

12 items

Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs?

2026

Cited

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

2026

Cited

Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

2026

Cited

Speech-Worthy Alignment for Japanese SpeechLLMs via Direct Preference Optimization

2026

Cited

Streaming Translation and Transcription Through Speech-to-Text Causal Alignment

2026

Cited

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

2026

Cited

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

2026

Cited

Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition

2025

Cited

Resume (English only)

Academic Achievements

Published numerous papers at top-tier venues including ICASSP, Interspeech, ASRU, SLT, and IEEE Access
Notable works include LLM-based multi-talker ASR, end-to-end neural speaker diarization, audio difference learning for captioning, and non-autoregressive intermediate attractors for diarization
Co-developed the DnR-nonverbal dataset for cinematic audio source separation with non-verbal sounds
Presented research on foley sound synthesis using class-conditioned latent diffusion models at DCASE 2023 Workshop
Co-delivered a tutorial at ICASSP 2021 on distant conversational speech recognition and trends toward end-to-end optimization

Co-authors

23 total

Shinji Watanabe

Carnegie Mellon University

Shota Horiguchi

NTT, Inc.

Naoyuki Kanda