Scholar

Changli Tang

Google Scholar ID: RzIjbf0AAAAJ

Tsinghua University

Automatic Speech RecognitionVideo Understanding

Google Scholar↗

Citations & Impact

All-time

Citations

779

H-index

8

i10-index

8

Publications

16

Co-authors

10

list available

Contact

No contact links provided.

Publications

10 items

One Brain, Omni Modalities: Towards Unified Non-Invasive Brain Decoding with Large Language Models

2026

Cited

0

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

2026

Cited

0

D-ORCA: Dialogue-Centric Optimization for Robust Audio-Visual Captioning

2026

Cited

0

OCR-Enhanced Multimodal ASR Can Read While Listening

2026

Cited

0

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

2025

Cited

0

video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models

2025

Cited

0

ACVUBench: Audio-Centric Video Understanding Benchmark

2025

Cited

0

Improving LLM Video Understanding with 16 Frames Per Second

2025

Cited

0

Resume (English only)

Co-authors

10 total

University of Cambridge

Department of Electronic Engineering, Tsinghua University

Tsinghua University

Shanghai Jiao Tong University <- Microsoft <- Cambridge University

Shanghai Jiao Tong University