Наука — Страница 156

Покер будущего: как предсказывать ходы противника

11.02.2026 от Денис Аветисян

Окружение LLM Poker предоставляет платформу для взаимодействия разнородных агентов, объединяя их посредством единого шлюза действий и обеспечивая механизмы памяти, необходимые для реализации долгосрочных стратегических взаимодействий.

Новый подход к обучению агентов в сложных играх с долгосрочной перспективой позволяет им учитывать стратегический контекст и прогнозировать поведение оппонентов.

Обучение роботов: Преодоление Несоответствий в Данных

11.02.2026 от Денис Аветисян

$Предложенная система решает проблему несоответствия распределений данных посредством трех последовательных этапов: расширения обучающей выборки с использованием эвристического алгоритма DAgger и пространственно-временной аугментации на этапе [latex]P_{\text{train}}[/latex], объединения взаимодополняющих политик в весовом пространстве с учетом специфики этапа при помощи Model Arithmetic на этапе [latex]Q_{\text{model}}[/latex], и обеспечения точности выполнения посредством временного сглаживания и закрытого циклического улучшения на основе DAgger на этапе [latex]P_{\text{test}}[/latex].$

Новый подход позволяет роботам надежно выполнять сложные задачи манипулирования, несмотря на неточности в данных и ограниченные ресурсы.

Неустойчивость в алгоритмах выбора: цена оптимальности

10.02.2026 от Денис Аветисян

Распределение выборок, полученное с помощью алгоритма Thompson Sampling в примере 1.1, демонстрирует закономерности, определяющие стратегию исследования и эксплуатации в процессе обучения с подкреплением.

Новое исследование показывает, что стремление к минимальным потерям в задачах выбора может привести к непредсказуемости и изменчивости в распределении ресурсов.

Структура и ограничения экономических моделей

10.02.2026 от Денис Аветисян

Гибкость алгоритма CPT(α,δ,γ) превосходит возможности алгоритма DA(α,η), что указывает на его превосходство в адаптации к изменяющимся условиям и более широкому спектру решаемых задач.

В новой работе предложен способ оценки степени структурированности экономических моделей по сравнению с гибкими альтернативами, позволяющий оценить вклад экономической теории за рамками чисто статистических соображений.

Эксперты в строю: Быстрый отбор и стабильная оптимизация моделей

10.02.2026 от Денис Аветисян

Новый подход позволяет эффективно обучать и выбирать оптимальное количество экспертов в сложных моделях, повышая их точность и скорость работы.