Диалоги с выгодой: обучение сервисных агентов балансу между качеством и затратами

Новый подход к обучению диалоговых систем позволяет оптимизировать взаимодействие с пользователями, учитывая не только успешное выполнение задачи, но и экономическую эффективность.
![В задачах линейно-квадратичного регулятора (LQR) с дискретным временем доминирование градиента проявляется даже при неполной наблюдаемости состояния и частичной стабилизируемости системы, где оптимальное усиление [latex]K^{\star}[/latex] определяется ландшафтом, зависящим от весов [latex]Q[/latex] и [latex]W[/latex], даже если [latex]Q[/latex] является лишь положительно полуопределённой матрицей.](https://arxiv.org/html/2602.22577v1/2602.22577v1/x2.png)


