Publications - Peter Chen

2026

Tree Bandits with Multi-fidelity Actions

Peter Chen, Xi Chen

NeurIPS 2026, Under Review

[Paper]

Tree Bandits with Multi-fidelity Actions

Peter Chen, Xi Chen

NeurIPS 2026, Under Review

[Paper]

Reward-free Alignment for Conflicting Objectives

Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Machine Learning (ICML 2026) Oral

[HuggingFace🤗] [Paper] [Code]

Reward-free Alignment for Conflicting Objectives

Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Machine Learning (ICML 2026) Oral

[HuggingFace🤗] [Paper] [Code]

2025

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Learning Representations (ICLR 2026)

[Paper]

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Learning Representations (ICLR 2026)

[Paper]

ComPO: Preference Alignment via Comparison Oracles

Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin

Advances in Neural Information Processing Systems 38 (NeurIPS 2025)

[HuggingFace🤗] [Paper] [Code] [Talk Slides]

ComPO: Preference Alignment via Comparison Oracles

Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin

Advances in Neural Information Processing Systems 38 (NeurIPS 2025)

[HuggingFace🤗] [Paper] [Code] [Talk Slides]

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Jiacheng Guo$^*$, Ling Yang$^*$, Peter Chen$^*$, Qixin Xiao$^*$, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang

Arxiv 2512.19682

[Paper]

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Jiacheng Guo$^*$, Ling Yang$^*$, Peter Chen$^*$, Qixin Xiao$^*$, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang

Arxiv 2512.19682

[Paper]

3D Cell Oversegmentation Correction via Geo-Wasserstein Divergence

Peter Chen, Bryan Chang, Olivia Annette Creasey, Julie Beth Sneddon, Zev Gartner, Yining Liu

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2026)

[Paper] [Code]

3D Cell Oversegmentation Correction via Geo-Wasserstein Divergence

Peter Chen, Bryan Chang, Olivia Annette Creasey, Julie Beth Sneddon, Zev Gartner, Yining Liu

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2026)

[Paper] [Code]

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

Transactions on Machine Learning Research (TMLR 2026)

[HuggingFace🤗] [Paper]

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

Transactions on Machine Learning Research (TMLR 2026)

[HuggingFace🤗] [Paper]

Displacement-Sparse Neural Optimal Transport

Peter Chen, Yue Xie, Qingpeng Zhang

Arxiv 2502.01889

[Paper] [Code]

Displacement-Sparse Neural Optimal Transport

Peter Chen, Yue Xie, Qingpeng Zhang

Arxiv 2502.01889

[Paper] [Code]

2024

SICNN: Sparsity-induced Input Convex Neural Network

Peter Chen, Yue Xie, Qingpeng Zhang

NeurIPS 2024 Optimization for Machine Learning

[Paper] [Code]

SICNN: Sparsity-induced Input Convex Neural Network

Peter Chen, Yue Xie, Qingpeng Zhang

NeurIPS 2024 Optimization for Machine Learning

[Paper] [Code]