Обучение с ограничениями: новый взгляд на групповую относительную оптимизацию

Предложенный подход расширяет GRPO для оптимизации стратегий с ограничениями, обеспечивая соблюдение пользовательских поведенческих ограничений с пороговыми значениями; в отличие от наивного скаляризованного вознаграждения, искажающего компромиссы между вознаграждением и ограничениями и приводящего к непоследовательным эффективным весам, использование скаляризованных преимуществ сохраняет семантику множителей, обеспечивая стабильное обучение и эффективное соблюдение ограничений.

В статье представлена методика, позволяющая эффективно накладывать ограничения на поведение агента в процессе обучения с подкреплением, сохраняя при этом баланс между различными ограничениями.