Han Wang

I have broad interests in LLM reasoning, safety, and evaluation, with a recent focus on CoT monitorability in reasoning models and safety issues in coding agents.

Selected Publications & Manuscripts (* denotes the equal contribution)

On The Fragility of Benchmark Contamination Detection in Reasoning Models

Han Wang*, Haoyu Li*, Brian Ko*, Huan Zhang

ICLR 2026

[Paper] [Code] [Openreview]
DecepChain: Inducing Deceptive Reasoning from Large Language Model

Wei Shen*, Han Wang*, Haoyu Li*, Huan Zhang

Preprint

[Paper] [Code] [Project]
How do Visual Attributes Influence Web Agents? A Comprehensive Evaluation of User Interface Design Factors

Kuai Yu*, Naicheng Yu*, Han Wang, Rui Yang, Huan Zhang

Preprint

[Paper] [Code]
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Junyu Zhang*, Runpei Dong*, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang

EMNLP 2025 Main && MATH-AI Workshop @ NeurIPS 2025

[Paper] [Code] [Project] [Press]
The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination

Yifan Sun*, Han Wang*, Dongbai Li*, Gang Wang, Huan Zhang

ICML 2025 && Data Problems Workshop @ ICLR 2025

[Paper] [Code]
Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks

Han Wang, Gang Wang, Huan Zhang

CVPR 2025

[Paper] [Code]
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation

Jingnan Zheng*, Han Wang*, An Zhang, Tai D. Nguyen, Jun Sun, Tat-Seng Chua

NeurIPS 2024

[Paper] [Code]

Conference Reviewer: NeurIPS 2025, ICLR 2026, ICML 2026, ACL ARR 2025-2026, ICLR Trustworthy AI Workshop 2026, ACM CCS AISec Workshop 2025, NeurIPS MATH-AI Workshop 2025