Проверка на прочность: Новый подход к оценке алгоритмов обучения с подкреплением

Исследователи предлагают принципиально новый метод создания эталонных систем, позволяющий строго оценить эффективность алгоритмов обучения с подкреплением в условиях стохастичности.
![Многоуровневая оценка использует вектор геометрических параметров [latex]\bm{\Theta}[/latex], быстро оценивает физические характеристики с помощью упрощенных моделей и, при превышении порога неопределенности κ предсказаний суррогатной модели Кригинга, задействует высокоточный решатель для уточнения модели, тем самым формируя замкнутый цикл активного обучения.](https://arxiv.org/html/2603.17057v1/figures/03_Figure_multifidelity_vertical.png)
![Сравнительный анализ различных алгоритмов моделирования выявил превосходство одного из них по каждой из метрик, при этом затраты времени были нормализованы в диапазоне [0,1] и отображены на графиках, а подходы base\_sandbox и meanfield\_sandbox, представляющие MALLES с и без mean-field усиления, демонстрируют коллективную эффективность.](https://arxiv.org/html/2603.17694v1/x3.png)