Наука — Страница 103

Обучение с подкреплением вслепую: новые горизонты оптимизации политик

03.03.2026 от Денис Аветисян

$В условиях отсутствия сдвига, алгоритм DRPU демонстрирует сходимость к сравнимой политике [latex]\pi_{cp}[/latex] (неоптимальной), в то время как LSPU стабилизируется на более слабой, при этом ошибка коррекции оценки [latex]err_k[/latex] к итерации 80 у DRPU стремится к нулю, в отличие от LSPU, где сохраняется ненулевая ошибка, что указывает на превосходство DRPU в достижении точной оценки.$

Исследование представляет усовершенствованные алгоритмы для обучения политик на основе исторических данных, преодолевая ограничения существующих методов и обеспечивая теоретические гарантии устойчивости.

Веса и вероятности: Приведение автоматов к нормальной форме

03.03.2026 от Денис Аветисян

Новое исследование показывает, как автоматы с весами можно преобразовать в эквивалентные вероятностные автоматы, объединяя два важных класса формальных моделей.

Оптимизация запросов для точной классификации текста

03.03.2026 от Денис Аветисян

Новый подход позволяет значительно улучшить качество классификации текста при ограниченном количестве примеров, используя структурированные запросы и семантическое выравнивание.

Риск и убеждения: как искажение вероятностей влияет на торговлю

02.03.2026 от Денис Аветисян

$Анализ стратегий ставок выявил, что агрессивные действия, характеризующиеся вогнутой функцией [latex]T2T\_2[/latex], сопряжены с высоким риском, в то время как консервативный подход, основанный на выпуклой функции [latex]T1T\_1[/latex], обеспечивает более надежную, хотя и менее прибыльную, страховку от потерь.$

Новое исследование показывает, что даже при общих взглядах на будущее, разные оценки риска могут приводить к взаимовыгодным сделкам и влиять на страхование.

Ускорение Решения Билинейных Задач: Новый Подход

02.03.2026 от Денис Аветисян

$Эксперимент CST с использованием SBC-DAPD демонстрирует, что при соотношении [latex]\frac{s\_{\max}^{2}}{s\_{\min}^{2}}=10^{4}[/latex] и [latex]\frac{L}{\mu}=10^{5}[/latex] наблюдается определенное поведение, которое контрастирует с поведением при [latex]\frac{s\_{\max}^{2}}{s\_{\min}^{2}}=10^{6}[/latex] и [latex]\frac{L}{\mu}=10^{3}[/latex], указывая на чувствительность системы к изменению этих параметров.$

Исследователи предлагают эффективный метод ускорения сходимости алгоритмов для решения задач билинейной седлообразной формы, избегая традиционных двойных циклов.