Наука — Страница 169

Обучение с подкреплением: Новый взгляд на генерацию траекторий

30.12.2025 от Денис Аветисян

В статье представлена методика, позволяющая более эффективно исследовать пространство действий и оптимизировать стратегии обучения с подкреплением, используя генеративные модели для анализа полных траекторий.

Обуздать разум: как управлять длиной рассуждений в больших языковых моделях

29.12.2025 от Денис Аветисян

$Динамика обучения алгоритмов Leash и Leash-C при [latex]L_t = 4\text{k}[/latex] демонстрирует, что Leash автоматически регулирует коэффициент адаптивного штрафа λ для ускорения сходимости и стабилизации выполнения ограничений, что отражается в показателях удовлетворенности обучающей выборке, величине адаптивного штрафа и средней длине токенов.$

Новый подход позволяет оптимизировать процесс мышления искусственного интеллекта, находя баланс между точностью и вычислительной эффективностью.

Смена режимов на финансовых рынках: взгляд через призму условных RBM

29.12.2025 от Денис Аветисян

Синтетические и реальные данные, сопоставленные в рамках модели Гаусса-Бернулли, демонстрируют общую структуру корреляций, указывая на то, что предложенная модель способна захватывать закономерности, присущие как искусственно сгенерированным, так и эмпирическим данным.

В новой работе исследуется применение условных машин Больцмана для выявления структурных сдвигов в динамике финансовых временных рядов.

Роботы учатся жонглировать задачами: модульные политики на основе диффузионных моделей

29.12.2025 от Денис Аветисян

$Предложенная методика диффузионного предсказания действий (FDP) формирует итоговую оценку, взвешивая прогнозы множества экспертов по диффузии на каждом шаге шумоподавления, что позволяет моделировать сложные многомодальные распределения и адаптироваться за счёт селективной настройки или добавления диффузионных компонентов, направляя итеративный процесс шумоподавления для генерации действия [latex]\mathbf{a}_{t}[/latex].$

Новый подход к многозадачному обучению позволяет роботам гибко адаптироваться и эффективно выполнять сложные манипуляции, разбивая их на специализированные навыки.

Тактика победителей: Искусственный интеллект на гоночной трассе

29.12.2025 от Денис Аветисян

Смоделированное увеличение времени круга напрямую связано со степенью износа шин при сохранении постоянной массы автомобиля, причем полученные кривые являются результатом объединения моделей, представленных ранее.

Новое исследование демонстрирует, как машинное обучение может оптимизировать стратегию гонки в Формуле-1, приближая команды к победе.