Scholar

Jihao Gu

Google Scholar ID: fSWwq3AAAAAJ

University College London

Computer Vision

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

H-index

i10-index

Publications

Co-authors

Contact

Emailjihao.gu.23@ucl.ac.uk CVOpen ↗GitHubOpen ↗

Publications

13 items

MA-Bench: Towards Fine-grained Micro-Action Understanding

2026

Cited

Text-guided Fine-Grained Video Anomaly Detection

2025

Cited

InquireMobile: Teaching VLM-based Mobile Agent to Request Human Assistance via Reinforcement Fine-Tuning

2025

Cited

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

2025

Cited

Motion Matters: Motion-guided Modulation Network for Skeleton-based Micro-Action Recognition

2025

Cited

MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion

2025

Cited

Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards

2025

Cited

DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models

2025

Cited

Resume (English only)

Academic Achievements

Paper accepted by ACM MM 2025; won the champion of Micro-gesture Classification sub-challenge in MiGA@IJCAI 2025; involved in projects such as MA-Bench: Towards Fine-grained Micro-Action Understanding.

Research Experience

Current research focuses on text-guided video anomaly detection (VAD) based on Large Vision-Language Models (LVLMs), aiming to enable fine-grained, interpretable, and human-centered video understanding; conducted research on visual perception systems for assisting visually impaired individuals during undergraduate studies, exploring multimodal sensing, intelligent interaction, and navigation technologies.

Education

Currently pursuing an MSc in Computer Graphics, Vision and Imaging at University College London, supervised by Assoc. Kaan Akşit; received a BEng in Computer Science and Technology from Hefei University of Technology, supervised by Prof. Dan Guo.

Background

Research interests span computer vision, multimodal learning, and vision-language understanding, with an emphasis on perception, reasoning, and generation in visual intelligence. Particularly interested in building systems that connect human motion, emotion, and cognition through multimodal signals, with additional interests in autonomous driving and environmental perception.

Miscellany

Open to any form of academic collaboration.

Co-authors

0 total

Co-authors: 0 (list not available)