Наука — Страница 155

Обучение с подкреплением: Управление рисками в сложных средах

11.02.2026 от Денис Аветисян

В исследовании сравнивалась эффективность алгоритма REINFORCE и его четырех модификаций RAPG, использующих различные меры риска - энтропийный риск, expectile, квадратичный риск и среднеквадратичный риск - при обучении политик, что позволило выявить различия в средней награде за траекторию и распределении наград, полученных в результате 250 независимых эпизодов.

Новый подход позволяет алгоритмам обучения с подкреплением учитывать различные уровни риска при принятии решений, повышая их надежность и эффективность.

Безопасный курс: Алгоритм обхода препятствий с учетом рисков

11.02.2026 от Денис Аветисян

$В процессе планирования траектории, система демонстрирует способность адаптироваться к движущемуся препятствию в центре рабочей области, осуществляя перепланировку маршрута каждые 10 секунд при значении [latex] \alpha = 0.2 [/latex].$

Новая разработка позволяет автономным судам уверенно ориентироваться в сложных морских условиях, прогнозируя и минимизируя потенциальные угрозы.

Торговые роботы с гибкой ликвидностью: новый подход к автоматизированному рынку

11.02.2026 от Денис Аветисян

$В рамках стационарного приближения AR(1) исследуется функция потерь [latex]\mathbb{E}[((1-\lambda)^{2}+\gamma\lambda)g^{2}][/latex] при [latex]\gamma = 4[/latex], что позволило определить асимптотический оптимизатор [latex]\lambda^{\ast}(\gamma)[/latex] для [latex]\gamma \in [0, 10][/latex].$

В статье представлен новый класс автоматизированных маркет-мейкеров, позволяющий оптимизировать скорость перебалансировки и снизить риски для поставщиков ликвидности.

Баланс между стабильностью и адаптивностью: новый алгоритм для задач с многорукими бандитами

11.02.2026 от Денис Аветисян

Исследователи предлагают инновационный подход к управлению рисками в сценариях принятия решений, где важны как долгосрочная стабильность, так и быстрая адаптация к меняющимся условиям.

Покер будущего: как предсказывать ходы противника

11.02.2026 от Денис Аветисян

Окружение LLM Poker предоставляет платформу для взаимодействия разнородных агентов, объединяя их посредством единого шлюза действий и обеспечивая механизмы памяти, необходимые для реализации долгосрочных стратегических взаимодействий.

Новый подход к обучению агентов в сложных играх с долгосрочной перспективой позволяет им учитывать стратегический контекст и прогнозировать поведение оппонентов.