Интеллектуальное управление портфелем: новый подход к оптимизации

Предлагаемая иерархическая структура обучения с подкреплением включает в себя верхнеуровневого агента, анализирующего глобальную рыночную информацию и формирующего сигналы координации, направляющие двух нижнеуровневых агентов, специализирующихся на отдельных подмножествах активов для извлечения локальных временных закономерностей и принятия инвестиционных решений, при этом среда обеспечивает обратную связь для завершения цикла обучения и оптимизации стратегии.

Исследователи предлагают иерархическую систему глубокого обучения с распределенным принятием решений для повышения эффективности и прозрачности инвестиционных стратегий.

Быки сходят с ума! $2.4B с кредитным плечом в крипто-хаос! 😲

Фьючерсные рынки раздуваются! Как плохая тарелка гефильте фиш! Открытый интерес вырос на 7 процентов по Bitcoin и Ethereum, что привело к увеличению кредитного плеча до ошеломляющих 35–38 миллиардов долларов. И всё это, пока все жалуются на надвигающийся мрак. Вы называете это разумным инвестированием? Я называю это рецептом изжоги.

Память как ресурс: новый взгляд на управление информацией в интеллектуальных агентах

Иерархическая система управления памятью формирует действия по извлечению данных на основе текущего состояния, а для записи использует две независимые подсистемы - добавления и удаления - каждая из которых оценивает предлагаемые операции и уровень неопределенности, после чего агрегирующая политика выбирает наиболее согласованное действие для записи.

В статье предлагается принципиально новый подход к управлению памятью в сложных системах, рассматривающий её как ценный ресурс, требующий взвешенных решений.

Нейросети учатся с симметрией: новый инструментарий для анализа динамики обучения

В статье представлен комплексный подход к пониманию того, как симметрии влияют на процесс обучения нейронных сетей, позволяющий вывести ограничения на поведение градиентов и гессианов.

Обучение с подкреплением: Новый взгляд на генерацию траекторий

Анализ согласованности агента и критика показывает, что для каждого целевого значения вознаграждения агент генерирует 50 скрытых планов, среднее вознаграждение которых по оси Y демонстрирует стабильность, в то время как критик, используя те же планы для траекторий из набора данных, оценивает их предсказанное вознаграждение, при этом точки с более высокими значениями ELBO, расположенные ближе к идеальной линии [latex]y=x[/latex], указывают на более надежные прогнозы, а сравнение оригинальных данных (синим цветом) с данными, собранными онлайн (красным цветом), позволяет оценить эффективность стратегии обучения.

В статье представлена методика, позволяющая более эффективно исследовать пространство действий и оптимизировать стратегии обучения с подкреплением, используя генеративные модели для анализа полных траекторий.