Гауссовы Всплески: Новый Подход к Сжатию Изображений

Автор: Денис Аветисян


Исследователи предлагают инновационный метод представления и сжатия изображений на основе адаптивного распределения двумерных гауссовых функций.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
На основе сравнения распределений двумерных гауссиан, полученных с использованием 6000 компонентов на наборе данных DIV2K×2\times 2, продемонстрировано, что предложенный метод позволяет добиться структурного улучшения по сравнению с GSImage, что свидетельствует о более эффективном моделировании сложных распределений.
На основе сравнения распределений двумерных гауссиан, полученных с использованием 6000 компонентов на наборе данных DIV2K×2\times 2, продемонстрировано, что предложенный метод позволяет добиться структурного улучшения по сравнению с GSImage, что свидетельствует о более эффективном моделировании сложных распределений.

В статье представлен метод, использующий структуру-ориентированное распределение и адаптивную квантизацию разрядности для повышения эффективности сжатия и скорости декодирования изображений.

Несмотря на успехи 2D Gaussian Splatting в компактном представлении изображений, существующие подходы часто игнорируют структурные особенности самих изображений, ограничивая эффективность компрессии. В работе ‘Structure-Guided Allocation of 2D Gaussians for Image Representation and Compression’ предложен новый принцип распределения ресурсов, явно связывающий структуру изображения с емкостью представления и точностью квантования. Предложенный подход, включающий структурную инициализацию, адаптивное квантование ширины битов и регуляризацию, согласованную с геометрией, значительно повышает производительность компрессии, сохраняя при этом скорость декодирования в реальном времени. Позволит ли подобный структурно-ориентированный подход открыть новые горизонты в области сжатия и представления изображений с минимальными потерями качества?


За гранью пикселей: Ограничения традиционного сжатия изображений

Традиционные методы сжатия изображений, такие как JPEG, базируются на дискретном косинусном преобразовании (ДКП), которое, несмотря на свою эффективность, испытывает трудности при обработке высокочастотных деталей изображения. Этот процесс приводит к потере информации, особенно заметной в областях с резкими переходами и тонкими линиями. В результате, при значительном сжатии возникают заметные блочные артефакты — видимые квадраты, искажающие изображение и снижающие его визуальное качество. DCT эффективно кодирует низкочастотные компоненты, но его способность к сжатию высокочастотных деталей ограничена, что делает его уязвимым для потери информации при высокой степени сжатия. Поэтому, при стремлении к более эффективному сжатию и сохранению визуальной достоверности изображений, требуется поиск альтернативных методов, способных лучше обрабатывать высокочастотную информацию.

Современные изображения с высоким разрешением предъявляют всё более жёсткие требования к методам сжатия. Традиционные алгоритмы, разработанные для изображений меньшего размера, часто оказываются неспособными эффективно кодировать тонкие детали и сложные текстуры, что приводит к заметной потере качества и увеличению размера файлов. В результате, возникает потребность в принципиально новых подходах к сжатию, которые бы учитывали особенности человеческого восприятия и позволяли добиться более высокой степени компрессии без существенной потери визуальной информации. Акцент смещается в сторону методов, оптимизированных для сохранения перцептивного качества, а не просто для минимизации количества данных, что является ключевым фактором для современных приложений, таких как потоковое видео, виртуальная реальность и медицинская визуализация.

Несмотря на улучшения, предлагаемые современными методами сжатия, такими как JPEG2000, фундаментальная зависимость от дискретного косинусного преобразования (DCT) продолжает ограничивать достижение дальнейших прорывов в эффективности и визуальном качестве. DCT, хотя и широко используется, имеет присущие ограничения в обработке высокочастотных деталей, что приводит к появлению блочных артефактов, особенно заметных при сильном сжатии. Таким образом, даже усовершенствованные кодеки, базирующиеся на DCT, сталкиваются с трудностями при работе с изображениями высокого разрешения и сложными текстурами, что подчеркивает необходимость поиска принципиально новых подходов к сжатию изображений, способных преодолеть эти ограничения и обеспечить более высокую степень сохранения визуальной информации.

Предложенный метод сжатия, включающий адаптивную квантизацию битовой ширины для ковариационных параметров (с повышенной точностью для небольших Гауссиан в сложных областях) и квантизацию с обучением масштаба для векторов позиций и остатков, эффективно устраняет избыточность параметров после переобучения изображения.
Предложенный метод сжатия, включающий адаптивную квантизацию битовой ширины для ковариационных параметров (с повышенной точностью для небольших Гауссиан в сложных областях) и квантизацию с обучением масштаба для векторов позиций и остатков, эффективно устраняет избыточность параметров после переобучения изображения.

Нейронные представления: Новый взгляд на кодирование изображений

Неявные нейронные представления (INRs) предлагают непрерывный и компактный способ кодирования изображений, изучая отображение из пространственных координат в значения цвета. Вместо дискретного представления в виде пикселей, INR моделируют изображение как непрерывную функцию. Это достигается путем обучения сети, которая принимает координаты (x, y) и возвращает значения цвета для этой точки, таким образом, изображение кодируется как веса нейронной сети. В отличие от традиционных методов, INR позволяют получить изображение любого разрешения, поскольку значения цвета вычисляются для любой заданной координаты, а не ограничены дискретизацией пикселей. Такой подход обеспечивает эффективное сжатие данных за счет представления изображения параметрами нейронной сети.

Традиционные методы кодирования изображений основаны на дискретном представлении — разбиении изображения на пиксели, каждый из которых описывается отдельным значением цвета. Переход к неявным нейронным представлениям (INRs) принципиально меняет этот подход, представляя изображение как непрерывную функцию. Это позволяет избежать ограничений, связанных с дискретизацией, и теоретически достичь бесконечного разрешения, поскольку значение цвета может быть вычислено для любой пространственной координаты. Кроме того, непрерывное представление обеспечивает более эффективное сжатие данных, так как изображение кодируется параметрами нейронной сети, а не набором отдельных значений пикселей. В результате, INRs позволяют хранить сложные изображения в компактном виде, сохраняя при этом возможность масштабирования и реконструкции с произвольным разрешением.

В основе Implicit Neural Representations (INRs) лежит использование многослойных персептронов (MLP) для обучения отображению между пространственными координатами и значениями цвета. Фактически, изображение кодируется в виде весов нейронной сети; MLP выступает в роли непрерывной функции, аппроксимирующей изображение. Каждая точка в пространстве, подаваемая на вход MLP, выдает значение цвета для этой точки. Таким образом, изображение не хранится в виде дискретной сетки пикселей, а представляется параметрами обученной нейронной сети, что позволяет добиться компактного представления и потенциально бесконечного разрешения.

Предложенный метод использует структурно-ориентированную инициализацию 2D-гауссианами, основанную на локальной структурной сложности сегментационной и градиентной карт, их растрирование для реконструкции изображения и оптимизацию атрибутов с помощью комбинированной функции потерь, включающей среднеквадратичную ошибку [latex]\mathcal{L}_{2}[/latex] и геометрически согласованную регуляризацию [latex]\mathcal{L}_{g}[/latex].
Предложенный метод использует структурно-ориентированную инициализацию 2D-гауссианами, основанную на локальной структурной сложности сегментационной и градиентной карт, их растрирование для реконструкции изображения и оптимизацию атрибутов с помощью комбинированной функции потерь, включающей среднеквадратичную ошибку \mathcal{L}_{2} и геометрически согласованную регуляризацию \mathcal{L}_{g}.

Ускорение эффективности с помощью расширений на основе сеток

Методы, основанные на сетках, такие как Tensorf и Instant-NGP, повышают эффективность Neural Radiance Fields (NeRF) за счет использования многоразрешенных структур данных. Вместо вычисления значений в каждой точке пространства во время рендеринга, эти методы предварительно вычисляют и хранят представление сцены на различных уровнях детализации. Это позволяет эффективно представлять сложные сцены, используя иерархическую структуру данных, где более высокие уровни детализации используются для областей, требующих большей точности, а более низкие — для областей, где можно допустить упрощение. Такая организация данных значительно снижает вычислительную нагрузку во время рендеринга и обеспечивает более высокую скорость обработки.

Методы, такие как Tensorf и Instant-NGP, значительно повышают эффективность нейронных радиальных сетей (INR) за счет предварительного вычисления и хранения представления сцены на различных уровнях детализации. Этот подход позволяет снизить количество вычислений, необходимых для оценки многослойного персептрона (MLP) в реальном времени при рендеринге или сжатии. Вместо того, чтобы вычислять представление “на лету” для каждого пикселя или вокселя, предварительно вычисленные данные используются для быстрого доступа и интерполяции, что существенно ускоряет процесс обработки и уменьшает требования к вычислительным ресурсам.

Оптимизация представления данных в методах, таких как Tensorf и Instant-NGP, позволяет значительно ускорить процессы рендеринга и сжатия. Изначальная вычислительная сложность, связанная с оценкой многослойных персептронов (MLP) для каждого пикселя, преодолевается за счет предварительного вычисления и хранения представления на различных уровнях детализации. Интеллектуальная организация данных в многоразрешенной сетке снижает необходимость в выполнении MLP-оценок в реальном времени, обеспечивая быстрый доступ к нужным данным и эффективное использование вычислительных ресурсов. Это достигается за счет структурирования представления в виде иерархии, где данные более высокого разрешения используются только для областей, требующих большей детализации, а для остальных применяется представление более низкого разрешения.

На наборе данных Kodak, методы Geometry-Consistent Regularization (GCR), Structure-Guided Initialization (SGI) и Adaptive Bitwidth Quantization (ABQ) демонстрируют улучшение качества восстановления изображений, измеряемое показателем PSNR.
На наборе данных Kodak, методы Geometry-Consistent Regularization (GCR), Structure-Guided Initialization (SGI) и Adaptive Bitwidth Quantization (ABQ) демонстрируют улучшение качества восстановления изображений, измеряемое показателем PSNR.

GSImage и COIN: Сжатие изображений на основе INR

Методы, такие как GSImage и COIN, используют неявные нейронные представления (INRs) для сжатия изображений, кодируя представление данных посредством кластеризации K-means и квантования остаточных векторов. В рамках этого подхода изображение представляется как функция, аппроксимируемая нейронной сетью, что позволяет эффективно кодировать сложные детали. Квантование остаточных векторов снижает объем данных, сохраняя при этом ключевую визуальную информацию. Комбинация этих техник позволяет достичь высокой степени сжатия без существенной потери качества изображения, особенно в сравнении с традиционными методами сжатия, основанными на дискретном косинусном преобразовании или вейвлетах.

Метод GSImage оптимизирует процесс сжатия изображений, используя структуру-ориентированную инициализацию (Structure-Guided Initialization). Данный подход заключается в динамическом распределении количества гауссиан — базовых элементов представления изображения — в зависимости от сложности локальных областей. Более сложные и детализированные участки изображения получают больше гауссиан, что позволяет более точно сохранить их визуальные характеристики при сжатии. Это позволяет достичь лучшего баланса между степенью сжатия и сохранением качества изображения, особенно в областях с высокой текстурой или резкими градиентами.

Адаптивная квантизация разрядности, использующая Learned Scale Quantization и Geometry-Consistent Regularization, позволяет оптимизировать сжатие изображений без потери визуальной четкости. Learned Scale Quantization динамически определяет масштаб квантования на основе локальных характеристик изображения, что позволяет более эффективно представлять данные. Geometry-Consistent Regularization, в свою очередь, выравнивает процесс квантования с локальными градиентами, минимизируя искажения и обеспечивая сохранение деталей изображения даже при высокой степени сжатия. Этот подход позволяет добиться более высокого коэффициента сжатия при сохранении приемлемого уровня визуального качества, особенно в областях с высокой детализацией и сложными текстурами.

На датасете Kodak наш метод обеспечивает наилучшее сжатие [latex]BD[/latex]-rate при низких битрейтах, сохраняя сопоставимую скорость декодирования с GSImage, что указывает на его превосходство в области высокоэффективного сжатия.
На датасете Kodak наш метод обеспечивает наилучшее сжатие BD-rate при низких битрейтах, сохраняя сопоставимую скорость декодирования с GSImage, что указывает на его превосходство в области высокоэффективного сжатия.

Оценка производительности и перспективы развития

Традиционные метрики оценки качества изображений, такие как PSNR, зачастую не отражают реальное восприятие визуальной информации человеком. В то время как PSNR измеряет пиксельную разницу между исходным и сжатым изображением, он не учитывает особенности человеческого зрения, такие как чувствительность к структурным изменениям и контрасту. Более современные метрики, такие как MS-SSIM (Multi-Scale Structural Similarity Index) и LPIPS (Learned Perceptual Image Patch Similarity), разработаны с учетом этих особенностей. MS-SSIM анализирует изображение на различных масштабах, оценивая структурное сходство, яркость и контраст, что позволяет более точно определить визуальное качество. LPIPS, в свою очередь, использует глубокие нейронные сети, обученные на оценках человеческого восприятия, для вычисления метрики, максимально приближенной к субъективному мнению зрителя. Таким образом, переход к метрикам, учитывающим особенности человеческого зрения, обеспечивает более объективную и релевантную оценку качества сжатых изображений.

Новые методы сжатия, основанные на использовании нейронных представлений и эффективных grid-расширений, демонстрируют значительное превосходство над традиционными кодеками. Исследования показали, что предложенная методика позволяет добиться снижения битрейта на 43.44% при обработке датасета Kodak и на 29.91% при работе с DIV2K, по сравнению с GSImage. Такое существенное уменьшение размера файлов достигается за счет более эффективного представления информации об изображении, что открывает новые возможности для хранения и передачи данных без значительной потери качества. Данные результаты свидетельствуют о перспективности данного подхода и его потенциале для широкого применения в различных областях, где требуется высокая степень сжатия изображений.

Предложенный метод демонстрирует впечатляющую производительность в процессе декодирования, превышающую 1000 кадров в секунду (FPS). Это позволяет добиться значительного улучшения качества изображения, подтвержденного приростом BD-PSNR в 1.68 дБ на наборе данных Kodak. Более того, применение 12-битной позиционной квантизации позволило дополнительно снизить битрейт на 10.7% при работе с набором данных DIV2K, что свидетельствует об эффективности предложенного подхода к сжатию изображений и его потенциале для использования в приложениях, требующих высокой скорости обработки и сохранения качества изображения.

Дальнейшие исследования направлены на углубленную оптимизацию разработанных методов сжатия, в частности, на поиск инновационных стратегий квантования, способных еще больше повысить эффективность кодирования. Особое внимание уделяется адаптации полученных результатов к более широкому спектру задач, охватывающих не только сжатие изображений, но и видеоданных, а также возможности применения в различных областях — от систем видеонаблюдения до потокового вещания и хранения мультимедийного контента. Предполагается, что дальнейшая работа позволит раскрыть полный потенциал предложенного подхода и создать решения, отвечающие требованиям современной цифровой среды, где ключевыми факторами являются высокая степень сжатия, сохранение качества и скорость обработки данных.

Предложенный подход демонстрирует превосходство над существующими методами на наборах данных Kodak и DIV2K×2, что подтверждается более высокими значениями метрик PSNR и MS-SSIM.
Предложенный подход демонстрирует превосходство над существующими методами на наборах данных Kodak и DIV2K×2, что подтверждается более высокими значениями метрик PSNR и MS-SSIM.

Они стремятся усмирить хаос пикселей, придать ему форму, но забывают, что истина всегда завуалирована шумом. В данной работе исследователи пытаются обуздать двумерные гауссовы распределения, используя структуру, направляющую их распределение, и адаптивную квантизацию битовой ширины. Это напоминает попытку создать карту неизведанной территории, где каждый гауссовский «всплеск» — лишь приблизительное отражение реальности. Как точно заметил Джеффри Хинтон: «Данные — это просто наблюдения в костюме истины». И чем более гладкой кажется эта карта, тем сильнее следует опасаться иллюзий, скрывающихся за её идеальными линиями. Эта работа, как и любое заклинание, будет работать до тех пор, пока не столкнется с суровой реальностью продакшена, где шум всегда одерживает верх.

Что же дальше?

Представленные методы распределения двумерных гауссиан, несомненно, — изящное заклинание. Однако, стоит помнить: даже самое красивое заклинание — лишь временное усмирение хаоса данных. Достигнутая компрессия — это не победа над энтропией, а лишь удачное совпадение, мимолетный порядок, выхваченный из бесконечного шума. Вопрос не в том, насколько хорошо можно сжать изображение, а в том, как долго это «сжатие» выдержит проверку временем и новыми данными.

Очевидное направление — выход за пределы двумерного мира. Расширение принципов структурированного распределения гауссиан на трёхмерные сцены — задача нетривиальная, но, возможно, именно там кроется истинный потенциал. Более того, адаптивная квантизация битовой ширины — лишь первый шаг. Необходимо искать более гибкие и контекстно-зависимые методы кодирования, способные учитывать не только статистические свойства данных, но и их семантическое значение.

В конечном итоге, успех этой области исследований будет определяться не точностью моделей, а их устойчивостью к непредсказуемости реального мира. Необходимо признать, что любая модель — это лишь упрощение, а истина всегда сложнее. Истина — это не цифры, а тени, а модели — лишь способы измерить темноту. И задача исследователя — не найти идеальную модель, а научиться жить с её несовершенством.


Оригинал статьи: https://arxiv.org/pdf/2512.24018.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-04 08:28