Обучение языковых моделей: как избежать «сдвига вероятностей» и точнее соответствовать предпочтениям человека

Различные генераторы расхождений, используемые в алгоритме DPO - [latex]t\log⁡t[/latex], [latex]\chi\chi PO(\tfrac{1}{2}(t-1)^{2}+t\log t)[/latex] и [latex]SquaredPO(\tfrac{1}{2}(\log t)^{2})[/latex] - демонстрируют различную устойчивость к смещению правдоподобия, причём функция [latex]SquaredPO[/latex], имеющая глобальный минимум при [latex]t=1[/latex], оказывается наиболее устойчивой к подобным искажениям.

Новое исследование предлагает расширенный класс математических функций, позволяющих более эффективно и стабильно настраивать языковые модели в соответствии с человеческими оценками.

Скрытые предпочтения: как алгоритмы мультоптимизации выбирают решения

Новое исследование показывает, что многие алгоритмы многокритериальной оптимизации демонстрируют систематические искажения в поиске, зависящие от расположения в пространстве решений.