Scholar

Can Qin

Google Scholar ID: QCik-YcAAAAJ

Salesforce

Computer VisionMachine LearningDeep Learning

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

3,679

H-index

i10-index

Publications

Co-authors

Contact

Emailqin.ca@northeastern.edu GitHubOpen ↗LinkedInOpen ↗

Publications

18 items

MTA-Agent: An Open Recipe for Multimodal Deep Search Agents

2026

Cited

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

2026

Cited

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

2025

Cited

BLIP3o-NEXT: Next Frontier of Native Image Generation

2025

Cited

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

2025

Cited

CoDA: Coding LM via Diffusion Adaptation

2025

Cited

Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training

2025

Cited

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

2025

Cited

Resume (English only)

Academic Achievements

Published multiple papers including 'UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG', 'CoDA: Coding LM via Diffusion Adaptation', 'Vlm2vec-v2 (MMEB-V2): Advancing multimodal embedding for videos, images, and visual documents', etc. Several projects have been accepted or released such as NeurIPS 25, ACL findings, CVPR 25, etc.

Research Experience

Started working as a Research Scientist at Salesforce AI Research in 2023.

Education

Earned a Ph.D. from Northeastern University in Boston, USA, in 2023, with research centered around Transfer Learning and Efficient AI. Obtained B.E. degree from Xidian University in Xi’an, China, in 2018.

Background

Currently a Research Scientist at Salesforce AI Research, focusing on Generative AI and Multi-modal Learning, particularly Video/Image to Text (Understanding) and Text to Video/Image (Generation) techniques.

Co-authors

0 total

Co-authors: 0 (list not available)