Debiasing Reward Models by Representation Learning with Guarantees - Ignavier Ng, Patrick Blöbaum, Siddharth Bhandari, Kun Zhang, Shiva Kasiviswanathan

Debiasing Reward Models by Representation Learning with Guarantees - Ignavier Ng, Patrick Blöbaum, Siddharth Bhandari, Kun Zhang, Shiva Kasiviswanathan | Arena