Обучение с подкреплением вслепую: новые горизонты оптимизации политик
![В условиях отсутствия сдвига, алгоритм DRPU демонстрирует сходимость к сравнимой политике [latex]\pi_{cp}[/latex] (неоптимальной), в то время как LSPU стабилизируется на более слабой, при этом ошибка коррекции оценки [latex]err_k[/latex] к итерации 80 у DRPU стремится к нулю, в отличие от LSPU, где сохраняется ненулевая ошибка, что указывает на превосходство DRPU в достижении точной оценки.](https://arxiv.org/html/2602.23811v1/2602.23811v1/x1.png)
Исследование представляет усовершенствованные алгоритмы для обучения политик на основе исторических данных, преодолевая ограничения существующих методов и обеспечивая теоретические гарантии устойчивости.
![Анализ стратегий ставок выявил, что агрессивные действия, характеризующиеся вогнутой функцией [latex]T2T\_2[/latex], сопряжены с высоким риском, в то время как консервативный подход, основанный на выпуклой функции [latex]T1T\_1[/latex], обеспечивает более надежную, хотя и менее прибыльную, страховку от потерь.](https://arxiv.org/html/2602.24194v1/2602.24194v1/x8.png)
![Эксперимент CST с использованием SBC-DAPD демонстрирует, что при соотношении [latex]\frac{s\_{\max}^{2}}{s\_{\min}^{2}}=10^{4}[/latex] и [latex]\frac{L}{\mu}=10^{5}[/latex] наблюдается определенное поведение, которое контрастирует с поведением при [latex]\frac{s\_{\max}^{2}}{s\_{\min}^{2}}=10^{6}[/latex] и [latex]\frac{L}{\mu}=10^{3}[/latex], указывая на чувствительность системы к изменению этих параметров.](https://arxiv.org/html/2602.23727v1/2602.23727v1/x4.png)