Динамическая оптимизация: обучение с подкреплением для поиска оптимальных стратегий
![Исследование предлагает автоматизированный подбор операторов для алгоритмов многокритериальной оптимизации на основе глубокого обучения с подкреплением, где агент DDPG, состоящий из сети актора и сети критика, анализирует характеристики текущей популяции [latex] \text{States} [/latex] и рекомендует оптимальную схему набора операторов [latex] \text{Action} [/latex], позволяя динамически адаптировать процесс оптимизации к изменяющимся условиям.](https://arxiv.org/html/2603.16401v1/x2.png)
Новый подход использует глубокое обучение с подкреплением для автоматического выбора набора операторов, улучшая эффективность решения многокритериальных задач с ограничениями.
