Обучение языковых моделей методом проб и ошибок: новый взгляд на Reinforcement Learning
Исследование предлагает переосмыслить процесс тонкой настройки больших языковых моделей с использованием принципов, аналогичных многорукому бандиту, что позволяет лучше понимать факторы, влияющие на их производительность.


