Слияние языковых моделей: новый подход к повышению стабильности и эффективности

В статье представлен метод объединения больших языковых моделей, основанный на геометрическом анализе и позволяющий добиться лучших результатов, особенно при работе с моделями, обученными на разных данных.

![Предложенная модель латентного мира отображает входное изображение в компактные латентные токены [latex]{\bm{z}}[/latex], после чего, используя полученные токены, обучает модель [latex]f\_{\phi}({\bm{z}}\_{t},{\bm{a}}\_{t})[/latex] для моделирования условного распределения будущего состояния [latex]p\_{\phi}({\bm{z}}\_{t+1}|{\bm{z}}\_{t},{\bm{a}}\_{t})[/latex] посредством маскированного генеративного моделирования, что позволяет осуществлять планирование действий [latex]{\bm{a}}\_{0:H-1}[/latex] во время принятия решений для минимизации расстояния между предсказанным конечным состоянием и целевым изображением.](https://arxiv.org/html/2603.05438v1/2603.05438v1/x1.png)
