От консенсуса к эволюции: доказательство глобальной сходимости оптимизации

Новое исследование предлагает строгую математическую основу для алгоритмов оптимизации, основанных на достижении консенсуса, подтверждая их способность находить оптимальные решения.
![При фиксированном объеме поставок [latex] \bar{Q} = 150 [/latex] в сто городах, свободный рынок обеспечивает плавное распределение товаров, в то время как ценовое регулирование приводит к насыщению наиболее дешевых городов и оставлению около тридцати без обслуживания, демонстрируя неэффективность административного контроля над распределением ресурсов.](https://arxiv.org/html/2602.12066v1/x4.png)
![Циклическая модель марковского процесса принятия решений (MDP) с [latex]K=3[/latex] стадиями рассматривается, где каждая стадия [latex]\mathcal{M}_{k}[/latex] состоит из [latex]\tau_{k}[/latex] шагов, соединенных переходами [latex]\phi_{k}[/latex] с коэффициентами дисконтирования [latex]\gamma_{k}[/latex], что позволяет оценить оптимальную Q-функцию [latex]Q_{k}^{\ast}[/latex] для каждой стадии путем максимизации ожидаемой дисконтированной награды в бесконечном цикле, начиная с любой стадии [latex]k[/latex].](https://arxiv.org/html/2602.11679v1/x1.png)
![Распределение градиентов на уровне токенов демонстрирует, как различные функции потерь влияют на обучение, причем для моделей с высокой производительностью градиенты концентрируются в области высокой вероятности и низкой энтропии [latex] p(x), H(x) [/latex], в то время как модели с низкой производительностью демонстрируют более рассеянное распределение, указывающее на менее эффективное использование информации о потерях.](https://arxiv.org/html/2602.11424v1/x4.png)