Jihyung Kil

I am a Research Scientist at Adobe Research. I earned my Ph.D. in Computer Science and Engineering from The Ohio State University, advised by Wei-Lun (Harry) Chao. My research interests include AI agents, with a recent focus on GUI/computer-using and embodied agents. I am also interested in multimodal understanding and generation for long-form content such as documents or textbooks. Feel free to reach out at jkil@adobe.com for collaborations and internships.

Work

Adobe Research - Research Scientist (2024 - present)
Amazon - Research Intern (2023)
Google Research (now DeepMind) - Research Intern (2022)

Research [by year]

GUI (Computer-Using) / Embodied Agents

Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations

Zichao Li, Gang Wu, Zichao Wang, Ruiyi Zhang, Wanrong Zhu, Ryan A. Rossi, Vlad I Morariu, Jihyung Kil

ICLR 2026

paper
GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang

ECCV 2026

paper / website
GUI Agents: A Survey

Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, others

ACL 2025

paper
GPT-4V(ision) is a Generalist Web Agent, if Grounded

Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su

ICML 2024

paper / code / website
Dual-View Visual Contextualization for Web Navigation

Jihyung Kil, Chan Hee Song, Boyuan Zheng, Xiang Deng, Yu Su, Wei-Lun Chao

CVPR 2024

paper / poster
One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones

Chan Hee Song, Jihyung Kil, Tai-Yu Pan, Brian M Sadler, Wei-Lun Chao, Yu Su

CVPR 2022

paper / code / poster

Multimodal Learning

Text-Conditioned Background Generation for Editable Multi-Layer Documents

Taewon Kang, Chris Tensmeyer, Jihyung Kil, Wanrong Zhu, Ming C Lin, Vlad I Morariu

ECCV 2026

paper
Unveiling Inherent Visual Grounding in Multimodal LLMs for Text-Rich Images

Shijie Zhou, Jihyung Kil, Ming Li, Jiuxiang Gu, Curtis Wigington, Rajiv Jain, Changyou Chen, Ruiyi Zhang

ACL 2026
DocPrune:Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning

Joonmyung Choi, Sanghyeok Lee, Jongha Kim, Sehyung Kim, Dohwan Ko, Jihyung Kil, Hyunwoo J. Kim

CVPR 2026

paper
AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models

Zheda Mai, Arpita Chowdhury, Zihe Wang, Sooyoung Jeon, Lemeng Wang, Jiacheng Hou, Jihyung Kil, Wei-Lun Chao

CVPR 2026

paper
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang

arXiv 2025

paper
MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

Jihyung Kil^*, Zheda Mai^*, Justin Lee, Zihe Wang, Kerrie Cheng, Lemeng Wang, Ye Liu, Arpita Chowdhury, Wei-Lun Chao

NeurIPS 2024

paper / code / website
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

Ju-Seung Byun^*, Jiyun Chun^*, Jihyung Kil, Andrew Perrault

EMNLP 2024

paper / code
II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering

Jihyung Kil, Farideh Tavazoee, Dongyeop Kang, Joo-Kyung Kim

ACL 2024

paper
PreSTU: Pre-Training for Scene-Text Understanding

Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, Radu Soricut

ICCV 2023

paper / poster
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering

Jihyung Kil, Cheng Zhang, Dong Xuan, Wei-Lun Chao

EMNLP 2021

paper / code / poster

Other

Representation Shift: Unifying Token Compression with FlashAttention

Joonmyung Choi^*, Sanghyeok Lee^*, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

ICCV 2025
Revisiting Document Representations for Large-Scale Zero-Shot Learning

Jihyung Kil, Wei-Lun Chao

NAACL 2021

paper / code / poster