Полиномиальные политики: Новый подход к обучению с подкреплением

Исследователи предлагают MePoly — инновационную параметризацию политик, основанную на полиномиальных распределениях, для повышения эффективности обучения с подкреплением и имитационного обучения.



