Homepage - Peter Chen

Warning

Problem: The current name of your GitHub Pages repository ("") does not match the recommended repository name for your site ("").
Solution: Please consider renaming the repository to "", so that your site can be accessed directly at "http://". However, if the current repository name is intended, you can ignore this message by removing "{% include widgets/debug_repo_name.html %}" in index.html.

Action required

Problem: The current root path of this site is "", which does not match the baseurl ("") configured in _config.yml.
Solution: Please set the baseurl in _config.yml to "".

Selected Publications (view all )

Reward-free Alignment for Conflicting Objectives

Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Machine Learning (ICML 2026) Oral

[HuggingFace🤗] [Paper] [Code]

Reward-free Alignment for Conflicting Objectives

Peter Chen, Xiaopeng Li, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Machine Learning (ICML 2026) Oral

[HuggingFace🤗] [Paper] [Code]

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Learning Representations (ICLR 2026)

[Paper]

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

Proceedings of the International Conference on Learning Representations (ICLR 2026)

[Paper]

ComPO: Preference Alignment via Comparison Oracles

Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin

Advances in Neural Information Processing Systems 38 (NeurIPS 2025)

[HuggingFace🤗] [Paper] [Code] [Talk Slides]

ComPO: Preference Alignment via Comparison Oracles

Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin

Advances in Neural Information Processing Systems 38 (NeurIPS 2025)

[HuggingFace🤗] [Paper] [Code] [Talk Slides]

3D Cell Oversegmentation Correction via Geo-Wasserstein Divergence

Peter Chen, Bryan Chang, Olivia Annette Creasey, Julie Beth Sneddon, Zev Gartner, Yining Liu

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2026)

[Paper] [Code]

3D Cell Oversegmentation Correction via Geo-Wasserstein Divergence

Peter Chen, Bryan Chang, Olivia Annette Creasey, Julie Beth Sneddon, Zev Gartner, Yining Liu

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2026)

[Paper] [Code]

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

Transactions on Machine Learning Research (TMLR 2026)

[HuggingFace🤗] [Paper]

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

Transactions on Machine Learning Research (TMLR 2026)

[HuggingFace🤗] [Paper]

Warning

Action required

Education

Experience

Teaching & Service

Selected Publications (view all )

Reward-free Alignment for Conflicting Objectives

Reward-free Alignment for Conflicting Objectives

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

ComPO: Preference Alignment via Comparison Oracles

ComPO: Preference Alignment via Comparison Oracles

3D Cell Oversegmentation Correction via Geo-Wasserstein Divergence

3D Cell Oversegmentation Correction via Geo-Wasserstein Divergence

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

All publications