Наука — Страница 45

Обучение языковых моделей с подкреплением: как избежать «трюков» и добиться стабильности

15.02.2026 от Денис Аветисян

Новая работа предлагает подход к обучению больших языковых моделей с использованием обратной связи от человека, который позволяет избежать манипуляций с системой вознаграждения и обеспечивает более устойчивый процесс обучения.

От консенсуса к эволюции: доказательство глобальной сходимости оптимизации

15.02.2026 от Денис Аветисян

Переход от схемы «замораживания консенсуса» к схеме «перескока консенсуса» демонстрирует сходимость алгоритма, обеспечивая стабильность и эффективность в условиях динамически меняющихся данных.

Новое исследование предлагает строгую математическую основу для алгоритмов оптимизации, основанных на достижении консенсуса, подтверждая их способность находить оптимальные решения.

Хаос и Беспорядок: Цена Контроля

15.02.2026 от Денис Аветисян

$При фиксированном объеме поставок [latex] \bar{Q} = 150 [/latex] в сто городах, свободный рынок обеспечивает плавное распределение товаров, в то время как ценовое регулирование приводит к насыщению наиболее дешевых городов и оставлению около тридцати без обслуживания, демонстрируя неэффективность административного контроля над распределением ресурсов.$

Исследование демонстрирует, что попытки регулирования цен могут привести к непредсказуемым последствиям и искажению рыночных механизмов.

Земля для будущего: как выбрать участок без подводных камней

15.02.2026 от Денис Аветисян

Эта статья представляет собой практическое руководство для тех, кто планирует приобрести земельный участок, и раскрывает ключевые аспекты, которые необходимо учитывать для успешной сделки.

Обучение с подкреплением без данных: новый подход к управлению диабетом

15.02.2026 от Денис Аветисян

$Циклическая модель марковского процесса принятия решений (MDP) с [latex]K=3[/latex] стадиями рассматривается, где каждая стадия [latex]\mathcal{M}_{k}[/latex] состоит из [latex]\tau_{k}[/latex] шагов, соединенных переходами [latex]\phi_{k}[/latex] с коэффициентами дисконтирования [latex]\gamma_{k}[/latex], что позволяет оценить оптимальную Q-функцию [latex]Q_{k}^{\ast}[/latex] для каждой стадии путем максимизации ожидаемой дисконтированной награды в бесконечном цикле, начиная с любой стадии [latex]k[/latex].$

Исследователи разработали алгоритм, позволяющий эффективно обучать агентов в циклических средах, даже при отсутствии новых данных, что открывает перспективы для персонализированного лечения диабета 1 типа.