Inference-Aware Meta-Alignment of LLMs via Non-Linear GRPO - Shokichi Takakura, Akifumi Wachi, Rei Higuchi, Kohei Miyaguchi, Taiji Suzuki

Inference-Aware Meta-Alignment of LLMs via Non-Linear GRPO - Shokichi Takakura, Akifumi Wachi, Rei Higuchi, Kohei Miyaguchi, Taiji Suzuki | Arena