Scholar

Jitesh Jain

Google Scholar ID: nygnfNwAAAAJ

Georgia Tech

Image SegmentationMultimodal ReasoningComputer Vision

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,022

H-index

7

i10-index

7

Publications

12

Co-authors

10

list available

Contact

No contact links provided.

Publications

6 items

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

2026

Cited

6

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

2025

Cited

0

AUGUSTUS: An LLM-Driven Multimodal Agent System with Contextualized User Memory

2025

Cited

0

Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait

2025

Cited

0

Slow-Fast Architecture for Video Multi-Modal Large Language Models

2025

Cited

0

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

arXiv.org · 2024

Cited

2

Resume (English only)

Co-authors

10 total

Georgia Tech | UIUC || ...

Research Scientist, Meta SuperIntelligence Lab

Netflix Eyeline Studios

Senior Research Scientist at Adobe Research

Principal Researcher, Microsoft