Жадные алгоритмы и распределение ресурсов: новый взгляд на задачу Multi-Armed Bandit

В статье представлена новая модель Multi-Play Multi-Armed Bandit с приоритетным распределением ресурсов, позволяющая оптимизировать выбор действий в условиях неопределенности.
![Наблюдения за динамикой [latex]\mathbb{E}[S(t)] [/latex] при различных значениях параметра θ - 0.4, 0.7, 1.0, 1.3 и 1.6 - демонстрируют эволюцию системы, определяемую параметрами, указанными в таблице 2, и раскрывают чувствительность модели к изменениям этого ключевого параметра.](https://arxiv.org/html/2512.21621v1/RPG-single-3.png)

