Обучение подражанию: новый подход к сложным задачам оптимизации

Исследование предлагает систематизацию методов обучения подражанию для решения комбинаторных задач оптимизации в условиях неопределенности и показывает, что двухэтапные стохастические эксперты обеспечивают оптимальное соотношение производительности и вычислительных затрат.
![В рамках исследуемой стратегии, атакующий (А) действует в соответствии с равновесием Нэша [latex]\tilde{\pi}^{\*}\[/latex], активно перемещаясь на восток к цели и используя ошибку защитника на первом шаге для достижения преимущества.](https://arxiv.org/html/2601.05427v1/x18.png)
