Наука — Страница 92

Карты вознаграждений: Новый подход к обучению генеративных моделей

07.02.2026 от Денис Аветисян

$Карты алмазных потоков представляют собой стохастические карты потоков, позволяющие выполнять одношаговые «прогнозы» траектории потока к потенциальным конечным точкам, что обеспечивает эффективное исследование, поиск и навигацию, при этом предложены два варианта реализации: карты апостериорных потоков, дистиллирующие потоки GLASS в карту потоков [latex]X\_{s,r}(\bar{x}|x\_{t},t)[/latex] для точной выборки из апостериорного распределения, и взвешенные карты алмазных потоков, позволяющие использовать стандартные карты потоков посредством простого добавления шума, что повышает эффективность выборки (ESS) и улучшает выравнивание изображений, как демонстрируется на примерах запросов, включающих$

В статье представлен инновационный метод, позволяющий эффективно согласовывать цели генеративных моделей с желаемым поведением, используя стохастические карты потока.

Не только оптимизация: как правильно сформулировать задачу

07.02.2026 от Денис Аветисян

Новое исследование показывает, что разделение задач оптимизации топологии и выбора материалов приводит к более эффективным и реалистичным конструкциям композитных материалов.

Оптимизация онлайн: снижение сложности стохастических методов Ньютона

07.02.2026 от Денис Аветисян

Новый алгоритм позволяет существенно сократить вычислительные затраты при онлайн-оптимизации, приближаясь по эффективности к методам первого порядка.

Прогноз на миллиарды: Согласование и масштабирование

07.02.2026 от Денис Аветисян

Наблюдения за крупным сегментом данных выявили, что сопоставление единиц измерения с течением месяцев позволяет оценить процентное расхождение от фактических значений, демонстрируя динамику отклонений во времени.

Новые алгоритмы позволяют эффективно решать задачи согласования прогнозов в условиях огромных объемов данных, типичных для современной розничной торговли.

Игры разума: новый подход к планированию в мультиагентных системах

07.02.2026 от Денис Аветисян

$В процессе обучения многослойный перцептрон (MLP) формирует стратегию [latex]\pi_{\theta}[/latex] посредством минимизации трех различных функций потерь, после чего, на основе полученной стратегии и динамики системы игрока 2, аппроксимируется наилучший ответ [latex]\widehat{\mathcal{B}}_{2}[/latex], что позволяет решить предложенное упрощенное условие Каруша-Куна-Таккера (KKT) с использованием суррогата этого ответа.$

Исследователи предлагают метод разложения динамических игр, позволяющий оптимизировать стратегии для роботов в условиях асимметричной информации.