Диффузия за гранью KL: Новый подход к оптимизации стратегий

По мере обучения модели SD1.5 с использованием HPSv2 наблюдается прогрессирующее повышение соответствия генерируемых изображений заданным текстовым запросам, что свидетельствует о динамической оптимизации процесса выравнивания.

Исследователи предлагают инновационный метод выравнивания диффузионных моделей, переосмысливающий оптимизацию вознаграждения как задачу минимизации дисперсии весов важности.

Игры с Марковскими процессами: Новые горизонты равновесия и обучения

В статье представлен новый подход к доказательству существования, характеристике и разработке алгоритмов обучения для равновесий Нэша в контексте Марковских игр и их обобщений.