Безопасное обучение с подкреплением: новый подход к надежному управлению

В статье представлен алгоритм SL-SAC, обеспечивающий повышенную безопасность и устойчивость при обучении агентов в сложных непрерывных средах.

В статье представлен алгоритм SL-SAC, обеспечивающий повышенную безопасность и устойчивость при обучении агентов в сложных непрерывных средах.

Появился новый класс компаний – так называемые «нео-облака». Забавно звучит, не правда ли? Они специализируются исключительно на предоставлении вычислительных ресурсов, необходимых для обучения и функционирования этих самых моделей искусственного интеллекта. Одной из таких компаний является CoreWeave (CRWV 0.60%). Она арендует пространство у Applied Digital (APLD +2.36%), которая, в свою очередь, владеет и управляет дата-центрами. Идиллия, не так ли? Пока деньги не закончатся.

Компания Palantir Technologies (PLTR +5.87%) представила квартальные результаты, которые, пожалуй, лучше назвать триумфом, чем просто хорошими показателями. Это было столь впечатляюще, что скромное описание казалось бы оскорблением. Они превзошли все ожидания аналитиков, а прогноз на 2026 год внушает оптимизм, если не сказать, что он граничит с дерзостью.

В общем, серебра у них теперь видимо-невидимо. В четвертом квартале 4.2 миллиона унций. 77% больше, чем в прошлом году. Это как если бы я внезапно стал есть в два раза больше огурцов. Ну, ладно, огурцы это не серебро, но суть вы понимаете. Gatos Silver, эта самая, выплюнула 1.5 миллиона унций. 1.5! И что с этим делать? Никто не объясняет. А я должен сидеть и считать. В итоге, 15.4 миллиона унций за год. Рекорд. Ну, молодец, что ли. А мне что с этого?
SPXL, как послушный ученик, множит в три движения S&P 500, тогда как QLD, более утончённый, довольствуется удвоением Nasdaq-100. Разница, казалось бы, незначительна, но именно она определяет не только секторное наполнение, но и степень риска, что, согласитесь, весьма любопытно.