Scholar

Songjun Cao

Google Scholar ID: 0H6jEP8AAAAJ

Tencent

speech understandingspeech generationmulti-modalLLM

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

287

H-index

8

i10-index

7

Publications

19

Co-authors

0

Contact

No contact links provided.

Publications

11 items

STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity

2026

Cited

0

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

2026

Cited

0

Diffusion Reconstruction towards Generalizable Audio Deepfake Detection

2026

Cited

0

Controllable Spoken Dialogue Generation: An LLM-Driven Grading System for K-12 Non-Native English Learners

2026

Cited

0

Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning

2026

Cited

0

Leveraging large multimodal models for audio-video deepfake detection: a pilot study

2026

Cited

0

PseudoVC: Improving One-shot Voice Conversion with Pseudo Paired Data

2025

Cited

0

MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt

2025

Cited

0

Resume (English only)

Co-authors

0 total

Co-authors: 0 (list not available)