Наука — Страница 111

Обучение языковых моделей: новый подход к управлению градиентами

05.02.2026 от Денис Аветисян

$Предлагаемый трехэтапный фреймворк обучения EG-SPO сначала использует демонстрации экспертов для предварительной настройки политики с помощью чистого SFT-подхода, затем генерирует траектории модели, вычисляя энтропию для каждого токена, и, наконец, направляет токены с высокой энтропией на полное обновление PPO для поощрения исследования, а токены с низкой энтропией - на PPO с φ-атенюацией для снижения дисперсии и сохранения знаний, при этом обе ветви сохраняют преимущество [latex]A_{t}[/latex] для обеспечения градиентов, учитывающих преимущество и избегающих усиления уверенных ошибок.$

В статье представлен инновационный метод гибридного обучения, позволяющий повысить стабильность и эффективность больших языковых моделей.

Интеллектуальный поиск материалов: новый подход к адаптивному моделированию

04.02.2026 от Денис Аветисян

$На основе анализа схождения алгоритма на 20-мерных математических функциях Акли, Растригина и Швейфеля, демонстрируется, что инициализация из десяти точек с последующим добавлением по десять кандидатов на каждой итерации обеспечивает стабильное снижение целевой функции и минимизацию расстояния до глобального оптимума, что подтверждается усреднением результатов по десяти независимым запускам.$

В статье представлен инновационный метод, объединяющий различные модели для эффективного исследования многомерного пространства материалов и ускорения процесса разработки.

Оптимизация сложных моделей: новый алгоритм для минимизации риска

04.02.2026 от Денис Аветисян

Наблюдения, основанные на анализе функции перекрёстной энтропии, демонстрируют, что при использовании оптимизатора SGD с моментом различные методы показывают сопоставимые результаты на обучающих и валидационных наборах данных Glint360K и TreeOfLife-10M, что указывает на их общую эффективность в задачах обучения.

Исследователи представили эффективный метод, позволяющий улучшить обучение моделей машинного обучения, работающих со сложными вероятностными зависимостями.

Управление рисками в обучении с подкреплением: новый подход к CVaR

04.02.2026 от Денис Аветисян

В статье представлена инновационная методика перераспределения наград для обучения с подкреплением, позволяющая эффективно управлять рисками и обеспечивать стабильность в условиях неопределенности.

Финансовый интеллект машин: новый тест на прочность

04.02.2026 от Денис Аветисян

Многооборотный диалог FinMTM, основанный на многостраничных финансовых отчётах, демонстрирует способность системы к извлечению численных данных, промежуточным вычислениям, проверке утверждений и кросс-страничной цитированию доказательств в ходе взаимодействия.

Исследователи представили комплексный набор данных FinMTM для оценки способности моделей понимать финансовую информацию и принимать решения в сложных ситуациях.