Scholar

Soham Deshmukh

Google Scholar ID: MasiEogAAAAJ

Microsoft, Carnegie Mellon University

Audio machine learningAudio processingSpeech processing

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,557

H-index

i10-index

Publications

Co-authors

list available

Contact

CVOpen ↗TwitterOpen ↗GitHubOpen ↗LinkedInOpen ↗

Publications

7 items

The CMU-AIST submission for the ICME 2025 Audio Encoder Challenge

2026

Cited

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

2025

Cited

MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

2025

Cited

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

2025

Cited

CoLMbo: Speaker Language Model for Descriptive Profiling

2025

Cited

Mellow: a small audio language model for reasoning

2025

Cited

ADIFF: Explaining audio difference using natural language

2025

Cited

Resume (English only)

Academic Achievements

Academic service: [2024] Organized workshop on Speech and Audio Language Models (SALMA) at ICASSP 2025; [2023] Organized special session at ICASSP 2023; [Reviewer] ICASSP, INTERSPEECH, NeurIPS, ICLR, DCASE, TASLP

Research Experience

Senior Applied Scientist on the Microsoft Speech team. Recent works include Video Translation, Pengi, CLAP.

Education

PhD: Carnegie Mellon University; B.Tech: VJTI

Background

Broad research interests include Audio/Speech Processing and Multimodal Learning. Research gets deployed in products like Teams, Edge, Outlook.

Miscellany

Links: Google Scholar, GitHub, Twitter, LinkedIn, CV

Co-authors

15 total

Benjamin Elizalde

Apple, Microsoft, Carnegie Mellon University

Co-author 2

Bhiksha Raj

Carnegie Mellon University

Dimitra Emmanouilidou

Researcher - Microsoft Research

Shuo Han

MS in Carnegie Mellon University