Обучение в команде: как снизить переоценку в многоагентном обучении с подкреплением
![В рамках предложенной схемы QSIM происходит самообучение представлений действий посредством автокодировщика, а затем вычисление косинусного сходства между отклоняющимися действиями [latex] a^{j}_{i} [/latex] и жадными действиями [latex] a^{*}_{i} [/latex] для получения взвешенных нормализованных весов, которые, в свою очередь, используются для построения почти жадных совместных действий [latex] c^{j}_{i} [/latex] и агрегирования их целевых значений временных различий (TD) в конечное взвешенное целевое значение TD [latex] Y_{QSIM} [/latex].](https://arxiv.org/html/2602.22786v1/2602.22786v1/x2.png)
Новая методика QSIM позволяет стабилизировать процесс обучения в сложных многоагентных системах, учитывая схожесть действий агентов.
![В рамках предложенной схемы QSIM происходит самообучение представлений действий посредством автокодировщика, а затем вычисление косинусного сходства между отклоняющимися действиями [latex] a^{j}_{i} [/latex] и жадными действиями [latex] a^{*}_{i} [/latex] для получения взвешенных нормализованных весов, которые, в свою очередь, используются для построения почти жадных совместных действий [latex] c^{j}_{i} [/latex] и агрегирования их целевых значений временных различий (TD) в конечное взвешенное целевое значение TD [latex] Y_{QSIM} [/latex].](https://arxiv.org/html/2602.22786v1/2602.22786v1/x2.png)
Новая методика QSIM позволяет стабилизировать процесс обучения в сложных многоагентных системах, учитывая схожесть действий агентов.

В статье рассматривается комплексный подход к решению проблемы неопределенности, возникающей при работе сложных систем, управляемых большими языковыми моделями и взаимодействующими агентами.
![Введение параметра температуры в алгоритм [latex]\text{binary-argmax}@k[/latex] позволяет перейти от решений, лежащих вне гиперплекса в [latex]\mathbb{R}^3[/latex] при [latex]k=1[/latex], к внутренним решениям, формируя стандартный симплекс в многомерном пространстве, где при [latex]k=2[/latex] в [latex]\mathbb{R}^4[/latex] решение располагается на поверхности октаэдра.](https://arxiv.org/html/2602.23336v1/2602.23336v1/x1.png)
В статье представлен инновационный метод дифференцируемой оптимизации, позволяющий более эффективно обучать модели машинного обучения.
![Для фиксированного значения [latex]v^{+} = 0.5[/latex], допустимое множество [latex]\mathcal{A}^{(2)}(0.5)[/latex] (определенное границей Hashin-Shtrikman и построенное на основе 750 случайных деформаций [latex]\bm{\mathbf{\varepsilon}}[/latex] с нормой Frobenius [latex]\sqrt{2}/2[/latex]) сопоставляется с тензорами слоистых ламинатов, достигающих границы Hashin-Shtrikman по энергии, которые были сгенерированы путём выборки 5000 напряжений [latex]\bm{\mathbf{\sigma}}[/latex] при материальных параметрах [latex]\kappa^{-} = 0.714 \times 10^{-9}[/latex], [latex]\kappa^{+} = 0.714[/latex], [latex]\mu^{-} = 0.385 \times 10^{-9}[/latex] и [latex]\mu^{+} = 0.385[/latex], демонстрируя соответствие между теоретическими пределами и практически реализуемыми решениями.](https://arxiv.org/html/2602.23180v1/2602.23180v1/x4.png)
В статье представлена методика эффективной оптимизации ортотропных материалов, позволяющая создавать более прочные и легкие конструкции.

Исследователи разработали более точную и интерпретируемую стохастическую модель взаимодействия хищника и жертвы, учитывающую взаимосвязанные случайные флуктуации.