Обучение с подкреплением: Новый взгляд на градиенты

Исследование предлагает улучшенный подход к обучению с подкреплением в стохастических средах за счет моделирования не только значений, но и их градиентов.

Исследование предлагает улучшенный подход к обучению с подкреплением в стохастических средах за счет моделирования не только значений, но и их градиентов.

Компания Rigetti Computing (RGTI) – один из первых, кто ринулся в эту неизведанную область. Рынок, словно зачарованный, откликнулся на этот порыв, взмыв акции на целых 137.1% за последние пять лет. Но, как показывает горький опыт, вера в технологию – не то же самое, что вера в её финансовое воплощение. Ибо технология, как и человек, может быть гениальной, но неспособной к выживанию в суровых реалиях рынка.

Отчет за четвертый квартал вызвал у инвесторов что-то среднее между легкой простудой и панической атакой. Заказы взлетели вдвое, что, конечно, хорошо. Но потом всё это как-то улеглось, и я вспомнил свою тетю Зину, которая каждый год обещала выиграть в лотерею, а потом просто покупала еще билетов.
![В исследовании установлено, что при значениях параметров [latex]c_w = 0.281004[/latex], [latex]c_v = 0.073654[/latex], [latex]\mu = 0.764891[/latex] и [latex]\lambda = 1.610490[/latex], при равномерном распределении типов агентов в диапазоне [0, 1], существуют области, где величина [latex]v_2^*[/latex] не проявляется, что указывает на то, что в этих областях главный агент поддерживает в очереди не более одного участника.](https://arxiv.org/html/2601.20728v1/vstars_vs_mu.png)
В статье представлена новая модель динамического механизма, позволяющая эффективно распределять ресурсы между агентами, учитывая их индивидуальные предпочтения и ограничения по времени.

Словно эхо в бесконечном коридоре, это падение оказалось не следствием внутренних проблем Nokia, но отражением более широкого беспокойства. И началось оно с Microsoft, гиганта, чьи финансовые показатели, как и всегда, были впечатляющими, но чьи инвестиции в искусственный интеллект пока не принесли ожидаемой отдачи. Инвесторы, словно игроки в шахматы, быстро перенесли это опасение на все компании, делающие ставки на будущее, где господствует разум машин.