Xiuyu Li's Homepage

Selected Publications

For the most up-to-date list of publications, please see google scholar.

* indicates co-first author ^† indicates project lead

Learning Adaptive Parallel Reasoning with Language Models
Jiayi Pan*, Xiuyu Li*, Long Lian*, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
COLM, 2025
[abs] [paper] [code]

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity
Samir Khaki*, Xiuyu Li*^†, Junxian Guo*, Ligeng Zhu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu
ICML, 2025
[abs] [paper] [code] [website]

S*: Test Time Scaling for Code Generation
Dacheng Li*, Shiyi Cao*, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
Preprint, 2025
[abs] [paper] [code]

Token-Efficient Long Video Understanding for Multimodal LLMs
Jindong Jiang*, Xiuyu Li*, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon
Preprint, 2025
[abs] [paper] [website]

LLoCO: Learning Long Contexts Offline
Sijun Tan*, Xiuyu Li*, Shishir Patil, Ziyang Wu, Tianjun Zhang, Kurt Keutzer, Joseph E. Gonzalez, Raluca Ada Popa
EMNLP, 2024
[abs] [paper] [code]

Q-Diffusion: Quantizing Diffusion Models
Xiuyu Li, Yijiang Liu, Long Lian, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer
ICCV, 2023
[abs] [paper] [code] [website] [talk]
Integration: NVIDIA TensorRT

SqueezeLLM: Dense-and-Sparse Quantization
Sehoon Kim*, Coleman Hooper*, Amir Gholami*, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer
ICML, 2024
[abs] [paper] [code]
Integration: Intel oneAPI

TorchSparse: Efficient Point Cloud Inference Engine
Haotian Tang*, Zhijian Liu*, Xiuyu Li*, Yujun Lin, Song Han
MLSys, 2022
[abs] [paper] [code] [website]

Xiuyu Li

Research

Selected Publications

Talks

Projects