Восемь Токенов для Планирования: Сжатие Изображений для ИИ

Автор: Денис Аветисян

Новый подход к токенизации изображений позволяет значительно уменьшить объем данных, необходимых для обучения систем искусственного интеллекта, не теряя при этом возможности планирования сложных действий.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Предложенная модель латентного мира отображает входное изображение в компактные латентные токены [latex]{\bm{z}}[/latex], после чего, используя полученные токены, обучает модель [latex]f\_{\phi}({\bm{z}}\_{t},{\bm{a}}\_{t})[/latex] для моделирования условного распределения будущего состояния [latex]p\_{\phi}({\bm{z}}\_{t+1}|{\bm{z}}\_{t},{\bm{a}}\_{t})[/latex] посредством маскированного генеративного моделирования, что позволяет осуществлять планирование действий [latex]{\bm{a}}\_{0:H-1}[/latex] во время принятия решений для минимизации расстояния между предсказанным конечным состоянием и целевым изображением. — Предложенная модель латентного мира отображает входное изображение в компактные латентные токены ${\bm{z}}$ , после чего, используя полученные токены, обучает модель $f\_{\phi}({\bm{z}}\_{t},{\bm{a}}\_{t})$ для моделирования условного распределения будущего состояния $p\_{\phi}({\bm{z}}\_{t+1}|{\bm{z}}\_{t},{\bm{a}}\_{t})$ посредством маскированного генеративного моделирования, что позволяет осуществлять планирование действий ${\bm{a}}\_{0:H-1}$ во время принятия решений для минимизации расстояния между предсказанным конечным состоянием и целевым изображением.

Представлен CompACT — дискретный токенизатор, сжимающий изображения до 8 токенов для повышения эффективности обучения моделей мира и алгоритмов обучения с подкреплением.

Несмотря на мощь моделей мира для симуляции динамики окружающей среды и планирования действий, их применение в реальном времени часто ограничивается вычислительной сложностью представления наблюдений. В данной работе, ‘Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model’, предлагается новый подход к дискретизации латентного пространства, позволяющий сжимать каждое наблюдение всего до 8 токенов. Разработанный токенизатор CompACT значительно снижает вычислительные затраты при планировании, сохраняя при этом необходимую информацию для эффективного обучения с подкреплением. Открывает ли это путь к практическому внедрению моделей мира в задачи реального управления и робототехники?

Преодолевая Границы Восприятия: Вызов Воплощенного Искусственного Интеллекта

Традиционные системы искусственного интеллекта демонстрируют впечатляющие успехи в задачах восприятия, таких как распознавание изображений и обработка речи. Однако, переход от понимания окружающей среды к активному взаимодействию с ней представляет значительную сложность. В отличие от людей и животных, которые способны быстро адаптироваться и учиться на небольшом количестве примеров, современные алгоритмы часто требуют огромных объемов данных для достижения приемлемой производительности в реальном мире. Эта неэффективность в использовании данных, известная как низкая выборочная эффективность, ограничивает возможности применения искусственного интеллекта в робототехнике и других областях, где сбор данных затруднен или дорогостоящ. Обучение робота выполнению даже простых задач, таких как навигация в незнакомой среде или манипулирование объектами, может потребовать тысячи часов тренировок, что делает разработку и развертывание интеллектуальных систем крайне трудоемким процессом.

Эффективное управление роботами и навигация требуют моделей, способных предсказывать последствия действий и строить устойчивые планы в динамично меняющихся условиях. Для этого недостаточно просто распознавать окружение; необходимо прогнозировать, как изменится ситуация после совершения того или иного действия. Например, робот, планирующий переместиться из точки А в точку Б, должен учитывать не только статичные препятствия, но и потенциальное движение других объектов, а также влияние собственных действий на окружающую среду. Разработка таких предсказательных моделей является ключевой задачей, поскольку позволяет создавать роботов, способных адаптироваться к непредсказуемым ситуациям и действовать эффективно даже в сложных и изменчивых условиях. Способность к планированию, учитывающему динамику окружающей среды, отличает интеллектуального робота от простого исполнителя команд.

Современные методы искусственного интеллекта, особенно в области робототехники и управления, часто сталкиваются с необходимостью обработки огромных объемов данных для достижения приемлемой производительности. Это создает существенные трудности при практическом внедрении, поскольку сбор и обработка таких массивов информации требует значительных ресурсов и времени. Ограниченность доступных данных также препятствует обобщению моделей — способности адаптироваться к новым, ранее не встречавшимся ситуациям. В результате, роботы и интеллектуальные системы, обученные на больших, но специфических наборах данных, могут демонстрировать неудовлетворительные результаты в реальных, динамично меняющихся условиях, что существенно ограничивает их применимость и масштабируемость.

Существенная проблема в развитии искусственного интеллекта, способного к эффективному взаимодействию с реальным миром, заключается в создании компактных и информативных представлений визуальных данных. Современные системы часто сталкиваются с трудностями при интерпретации сложных сцен, требуя огромных объемов данных для обучения. Вместо обработки необработанных пикселей, необходимы методы, позволяющие выделить ключевые признаки и взаимосвязи, формируя лаконичное, но полное описание окружения. Такой подход позволит значительно снизить вычислительную нагрузку и повысить эффективность планирования и управления роботами, обеспечивая более быстрое и надежное принятие решений в динамично меняющихся условиях. По сути, речь идет о создании «визуального интеллекта», который сможет «понимать» увиденное и использовать эту информацию для достижения поставленных целей.

Сжатие Реальности: Токенизация Изображений и Фреймворк CompACT

Для повышения эффективности планирования используется токенизация изображений, позволяющая свести сложные визуальные сцены к небольшому набору дискретных токенов. Вместо работы с исходным изображением, состоящим из большого количества пикселей, система оперирует компактным представлением, состоящим из ограниченного числа токенов, каждый из которых кодирует определенную визуальную характеристику. Это значительно уменьшает размер входных данных, необходимых для планирования, и позволяет алгоритмам быстрее обрабатывать информацию о среде. Такой подход особенно полезен в задачах, требующих обработки визуальной информации в реальном времени, например, в навигации роботов или автономных транспортных средств.

Токенизатор CompACT, построенный на основе архитектуры DINOv3, выполняет сжатие изображений путем преобразования их в латентное пространство. В процессе сжатия особое внимание уделяется сохранению информации, релевантной для планирования действий. Алгоритм позволяет снизить размер представления изображения до 8 токенов, при этом сохраняется возможность реконструкции визуально значимых деталей, необходимых для задач навигации и планирования траектории.

Для восстановления изображений из дискретных токенов, полученных в процессе сжатия, используются модели MaskGIT и VQGAN. MaskGIT, применяя итеративный процесс маскирования и заполнения, позволяет генерировать изображения высокого разрешения, сохраняя при этом детали и структуру исходной сцены. VQGAN (Vector Quantized Generative Adversarial Network) обеспечивает эффективную реконструкцию, кодируя изображения в дискретное пространство латентных векторов и декодируя их обратно в визуальную форму. Совместное использование этих моделей гарантирует, что критически важные визуальные признаки, необходимые для планирования и навигации, будут сохранены в процессе реконструкции, обеспечивая адекватное представление исходной сцены.

Использование токенизации изображений позволило существенно снизить размерность входных данных, что привело к значительному ускорению процесса планирования в задачах навигации. В ходе тестирования было достигнуто до 40-кратное уменьшение задержки планирования по сравнению с традиционными методами, обрабатывающими полные изображения. Снижение размерности достигается за счет представления визуальной сцены в виде дискретного набора токенов, что упрощает и ускоряет вычисления, необходимые для построения оптимального маршрута или траектории движения.

Архитектура токенизатора предусматривает обновление только латентного ресемплера и [latex]\mathcal{D}_{\textrm{compact}}[/latex] в процессе обучения, при этом [latex]\mathcal{E}_{\psi}[/latex] генерирует маскированные целевые токены исключительно для обучения, а [latex]\mathcal{D}_{\psi}[/latex] используется только на этапе инференса для реконструкции на уровне пикселей. — Архитектура токенизатора предусматривает обновление только латентного ресемплера и $\mathcal{D}_{\textrm{compact}}$ в процессе обучения, при этом $\mathcal{E}_{\psi}$ генерирует маскированные целевые токены исключительно для обучения, а $\mathcal{D}_{\psi}$ используется только на этапе инференса для реконструкции на уровне пикселей.

Прогностическая Мощь: Создание Модели Мира для Надежного Управления

Мы разрабатываем модель мира, которая использует токенизатор CompACT для прогнозирования будущих состояний на основе текущих наблюдений и действий. В основе лежит принцип кодирования входных данных (наблюдений и действий) в дискретное представление с помощью CompACT, что позволяет модели эффективно обучаться и предсказывать последовательности состояний. Этот подход позволяет модели мира не просто запоминать наблюдаемые данные, но и обобщать полученные знания для предсказания поведения системы в различных сценариях, опираясь на взаимосвязь между действиями и их последствиями в динамической среде.

Для повышения реалистичности и согласованности предсказаний, используемых в построенной модели мира, применяются методы DiT (Denoising Diffusion Implicit Models) и Diffusion Forcing. DiT позволяет моделировать сложные распределения данных, генерируя более правдоподобные будущие состояния. Diffusion Forcing, в свою очередь, направляет процесс генерации, обеспечивая большую когерентность предсказаний и снижая вероятность появления нереалистичных или нелогичных сценариев. Комбинация этих двух подходов значительно улучшает качество предсказаний, что критически важно для эффективной работы алгоритмов Model Predictive Control и Reinforcement Learning.

Обученная модель мира значительно повышает эффективность алгоритмов модельно-прогностического управления (MPC) и обучения с подкреплением (RL). В частности, для MPC модель мира позволяет выполнять планирование на большем горизонте с меньшими вычислительными затратами, поскольку предсказание будущих состояний осуществляется быстрее и точнее. Для RL модель мира служит надежным симулятором среды, что снижает потребность в дорогостоящих и времязатратных взаимодействиях с реальным миром и ускоряет процесс обучения агента. Использование модели мира в RL позволяет применять off-policy алгоритмы, эффективно используя накопленный опыт и повышая стабильность обучения.

Предложенный подход демонстрирует сопоставимую с современными передовыми методами точность прогнозирования, при этом обеспечивая значительно более быстрое планирование. Оценка качества сгенерированных предсказаний, полученная с использованием метрики Inception Score, находится на уровне, сравнимом с результатами, достигнутыми моделью MaskGIT-VQGAN. Это указывает на способность модели генерировать реалистичные и когерентные прогнозы, сохраняя при этом вычислительную эффективность и скорость работы алгоритмов планирования и обучения с подкреплением.

Оценка rFID на проверочном наборе данных ImageNet[deng2009imagenet] с использованием метрики clean-fid[parmar2022aliased] показывает влияние токенизатора CompACT на качество генерируемых изображений.

Навигация в Реальном Мире: Бенчмаркинг и Валидация

Предложенный подход продемонстрировал высокую эффективность на общепризнанных наборах данных для навигации, таких как RECON, SCAND и HuRoN. Тестирование на этих платформах позволило подтвердить способность системы успешно ориентироваться и строить траектории в различных, зачастую сложных, средах. Результаты, полученные на RECON — известном своей реалистичностью, — показали значительное улучшение точности по сравнению с существующими решениями. Аналогичные положительные результаты были достигнуты на SCAND, отличающемся акцентом на крупные, детально проработанные пространства, и на HuRoN, где основной задачей является навигация в динамически меняющихся условиях. Подтвержденная эффективность на этих наборах данных указывает на потенциал разработанной системы для применения в широком спектре реальных сценариев, включая робототехнику и автономную навигацию.

Для подтверждения точности созданной модели мира проводилась валидация с использованием общепринятых метрик — Absolute Trajectory Error (ATE) и Relative Pose Error (RPE). ATE оценивает общую точность предсказанной траектории, измеряя среднее расстояние между предсказанными и реальными положениями в пространстве. В свою очередь, RPE фокусируется на локальной точности, оценивая изменение относительной позы (положения и ориентации) между последовательными кадрами. Использование этих метрик позволило количественно оценить способность модели корректно отображать и предсказывать перемещения в окружающей среде, подтверждая ее надежность и применимость в задачах навигации и планирования маршрута.

Обучение компактному и информативному представлению окружающей среды позволяет системе демонстрировать повышенную обобщающую способность и устойчивость в сложных ситуациях. Вместо обработки полных, ресурсоемких изображений, алгоритм фокусируется на извлечении ключевой информации об окружении, что существенно снижает вычислительную нагрузку и позволяет адаптироваться к новым, ранее не встречавшимся сценариям. Такой подход особенно важен в динамичных условиях, где освещение меняется, появляются препятствия или происходит смещение камеры, поскольку система способна эффективно экстраполировать полученные знания и продолжать корректно ориентироваться даже при значительных отклонениях от привычной обстановки. Данная стратегия обеспечивает надежную навигацию и позволяет роботу успешно функционировать в непредсказуемых условиях, приближая его к реальным задачам и требованиям.

Исследование демонстрирует значительное снижение вычислительных затрат за счет радикальной компрессии изображений. Вместо использования 784 токенов, как в случае с SD-VAE, разработанный подход позволяет эффективно кодировать визуальную информацию всего в 8 токенах. При этом, несмотря на столь существенное уменьшение объема данных, достигается сохранение высокой производительности в задачах навигации и построения карт окружения. Такая компрессия не только ускоряет обработку данных, но и открывает возможности для применения алгоритмов на устройствах с ограниченными вычислительными ресурсами, расширяя спектр практических применений.

Исследование, представленное в данной работе, демонстрирует стремление к математической чистоте в области представления данных. Авторы предлагают CompACT — токенизатор, способный сжать изображения до восьми токенов, сохраняя при этом необходимую информацию для планирования в задачах обучения с подкреплением. Этот подход резонирует с принципом, высказанным Янном ЛеКуном: «Машинное обучение — это математика, а не магия». Сжатие информации до минимально необходимого уровня — это не просто оптимизация вычислительных ресурсов, но и стремление к элегантности и доказательности алгоритма. В данном контексте, эффективность CompACT заключается не только в скорости, но и в возможности построения более строгих и предсказуемых моделей мира, что соответствует требованиям к доказательным алгоритмам, где каждое решение должно быть обосновано логически.

Что Дальше?

Представленная работа демонстрирует впечатляющую эффективность сжатия визуальной информации до восьми токенов. Однако, пусть N стремится к бесконечности — что останется устойчивым? Долгосрочная стабильность такого радикального сжатия в сложных, динамичных средах — вопрос, требующий пристального внимания. Устойчивость к шуму и вариациям в данных, несомненно, будет подвергаться проверке с увеличением сложности решаемых задач.

Ключевым ограничением остается зависимость от конкретной архитектуры и обучающего набора данных. Сможет ли подобный токенайзер обобщаться на совершенно новые, непредсказуемые визуальные миры? Необходимы исследования, направленные на повышение робастности и адаптивности, возможно, за счет введения принципов самообучения или использования мета-обучения для быстрой адаптации к новым условиям.

В конечном итоге, истинная ценность CompACT не в достигнутом уровне сжатия, а в открытии возможности для создания более компактных и эффективных систем планирования. Однако, следует помнить, что даже самый элегантный алгоритм не сможет компенсировать фундаментальные ограничения вычислительных ресурсов. Поэтому, дальнейшие исследования должны быть направлены на поиск компромисса между степенью сжатия, вычислительной сложностью и точностью планирования.

Оригинал статьи: https://arxiv.org/pdf/2603.05438.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-07 06:47