Интеллектуальный поиск патентов для финтеха: новый подход

Автор: Денис Аветисян


Исследователи разработали систему, использующую возможности искусственного интеллекта для оперативного выявления релевантных патентных ссылок в быстро меняющемся мире финансовых технологий.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Анализ облака ключевых слов, выделенных из рефератов финансовых патентов, демонстрирует преобладание терминологии, отражающей акцент на автоматизации, алгоритмической торговле и защите интеллектуальной собственности в сфере финансовых технологий.
Анализ облака ключевых слов, выделенных из рефератов финансовых патентов, демонстрирует преобладание терминологии, отражающей акцент на автоматизации, алгоритмической торговле и защите интеллектуальной собственности в сфере финансовых технологий.

Представлена система рекомендаций патентных ссылок в реальном времени, использующая большие языковые модели и алгоритм HNSW для эффективного поиска в патентных данных.

Быстрый темп инноваций в сфере финансовых технологий создает серьезные трудности для своевременного поиска релевантных патентных ссылок. В данной работе, посвященной ‘LLM-powered Real-time Patent Citation Recommendation for Financial Technologies’, предложена система рекомендаций, использующая большие языковые модели и эффективный алгоритм поиска на графах, для оперативной обработки динамично меняющегося корпуса финансовых патентов. Разработанный подход демонстрирует повышение точности и скорости поиска по сравнению с традиционными методами, позволяя эффективно обновлять индекс при поступлении новых заявок. Не станет ли эта технология ключевым инструментом для обеспечения качества патентных исследований и стимулирования дальнейших инноваций в сфере финансовых технологий?


Финансовые инновации и патентный анализ: неизбежный рост сложности

Стремительное развитие финансовых инноваций диктует необходимость применения все более сложных методов патентного анализа для выявления ключевых тенденций и прогнозирования конкурентных угроз. В условиях постоянно ускоряющегося технологического прогресса, компании и исследовательские организации нуждаются в инструментах, позволяющих не только отслеживать новые разработки, но и предвидеть будущие направления развития рынка. Такой анализ позволяет выявлять потенциальные возможности для создания уникальных продуктов и услуг, а также оценивать риски, связанные с нарушением патентных прав. Эффективный патентный анализ становится критически важным элементом стратегии инновационного развития, обеспечивая конкурентное преимущество и способствуя росту бизнеса в динамично меняющейся финансовой среде.

Традиционные методы патентного поиска, основанные на сопоставлении ключевых слов, часто оказываются неэффективными при выявлении действительно релевантных предшествующих разработок. Ограничиваясь простым сравнением терминов, такие системы упускают из виду тонкие смысловые оттенки и контекст инноваций. Это приводит к тому, что важные патенты, описывающие схожие, но сформулированные иным образом решения, остаются незамеченными. В результате, оценка новизны изобретения и определение потенциальных нарушений патентных прав становятся затруднительными, а компании рискуют упустить возможности для развития и столкнуться с юридическими проблемами. Поэтому, для адекватной оценки технологического ландшафта и защиты интеллектуальной собственности, необходимы более совершенные инструменты, способные учитывать семантическое содержание и контекст патентов.

Ежегодное количество патентов, поданных в CNIPA в области финансов, демонстрирует динамику развития инноваций в данной сфере.
Ежегодное количество патентов, поданных в CNIPA в области финансов, демонстрирует динамику развития инноваций в данной сфере.

Семантические представления: улавливая смысл патентов

Современные большие языковые модели, такие как Text Embedding-3-Large, позволяют создавать семантические векторные представления рефератов патентов, значительно превосходя традиционные методы поиска по ключевым словам. В отличие от поиска, основанного на точном совпадении терминов, эти модели анализируют смысл и контекст текста, преобразуя его в многомерный вектор. Этот вектор отражает семантическое содержание реферата, позволяя оценивать близость между патентами на основе их смыслового сходства, а не просто наличия общих слов. В результате, обеспечивается более точное и релевантное выявление патентов, связанных по содержанию, даже если они используют разную терминологию.

Для количественной оценки семантической близости между патентами используются векторные представления (эмбеддинги), полученные с помощью больших языковых моделей, и показатель косинусного сходства. Косинусное сходство рассчитывается как косинус угла между двумя векторами, представляющими патенты; значения приближаются к 1 при высокой степени семантической схожести и к 0 при отсутствии таковой. Этот метод позволяет выявлять патентные документы, релевантные заданному запросу или схожие по техническому содержанию, даже если в них не используются идентичные ключевые слова, что повышает точность и качество рекомендаций и поиска по патентной базе.

Традиционные методы семантического анализа патентов, такие как TF-IDF, BERT и Doc2Vec, несмотря на свою полезность, часто демонстрируют ограниченное понимание контекста и нюансов языка. TF-IDF основывается на частоте встречаемости терминов, не учитывая семантические связи между ними. BERT и Doc2Vec, хотя и используют нейронные сети, могут испытывать трудности с обработкой сложных предложений и выявлением скрытых связей между понятиями, особенно в специализированной области патентного права. Современные большие языковые модели (LLM) превосходят эти методы благодаря своей способности учитывать более широкий контекст, понимать синонимы и антонимы, а также выявлять сложные логические связи, что позволяет им создавать более точные и релевантные семантические представления патентов.

Эффективный поиск ближайших соседей для патентного поиска

Алгоритмы приближённого поиска ближайших соседей (ANN), такие как HNSW и ANNOY, представляют собой эффективное решение для быстрой идентификации наиболее семантически близких патентов к заданному запросу. В отличие от точного поиска, который требует сравнения запроса с каждым документом в базе данных, ANN алгоритмы строят индекс, позволяющий значительно сократить количество необходимых сравнений. HNSW (Hierarchical Navigable Small World) использует многоуровневый граф для эффективной навигации, в то время как ANNOY (Approximate Nearest Neighbors Oh Yeah) строит лес случайных проекций. Оба подхода обеспечивают компромисс между точностью и скоростью, делая их применимыми к крупномасштабным патентным базам данных, где скорость поиска является критическим фактором.

Алгоритмы приближенного поиска ближайших соседей (ANN), такие как HNSW и ANNOY, обеспечивают значительное увеличение скорости поиска в больших базах данных патентов за счет некоторого снижения точности. В отличие от точного поиска, который гарантирует нахождение абсолютно ближайшего соседа, ANN алгоритмы допускают небольшие отклонения в результатах, что позволяет существенно сократить время обработки запроса. Этот компромисс является оправданным в сценариях, где скорость поиска критически важна, а небольшие погрешности в ранжировании результатов не оказывают существенного влияния на конечный результат, например, при поиске релевантных патентов для анализа патентного ландшафта или выявления потенциальных нарушений.

Эффективность алгоритмов HNSW и ANNOY при поиске ближайших соседей напрямую зависит от качества семантических представлений (embeddings) входных данных. Низкокачественные embeddings, не отражающие истинную семантическую близость патентов, приводят к нерелевантным результатам поиска, даже при использовании самых быстрых алгоритмов ANN. Высококачественные embeddings, напротив, позволяют HNSW и ANNOY быстро и точно идентифицировать наиболее семантически близкие патенты, демонстрируя тесную взаимосвязь между методами формирования векторных представлений и алгоритмами поиска, оптимизированными для работы с этими представлениями. Таким образом, повышение качества embeddings является ключевым фактором для улучшения производительности системы поиска патентов.

Реальное время патентных рекомендаций: динамическая система

Разработка системы рекомендаций патентов в режиме реального времени стала возможной благодаря сочетанию семантических представлений и алгоритмов приближенного ближайшего поиска (ANN). Этот подход позволяет преобразовывать патентные документы в векторные представления, отражающие их смысловое содержание, и быстро находить наиболее релевантные документы в огромном массиве данных. В отличие от традиционных методов, основанных на ключевых словах, семантические представления улавливают более тонкие связи между патентами, что повышает точность рекомендаций. Система способна оперативно адаптироваться к потоку новых заявок, обеспечивая актуальность результатов поиска и поддерживая эффективность работы с постоянно растущим объемом патентной информации. Благодаря этому, исследователи и специалисты могут быстро находить релевантный предшествующий уровень техники, что существенно ускоряет процесс разработки инноваций и снижает риски нарушения патентных прав.

В основе системы оперативных рекомендаций патентов лежит механизм инкрементных обновлений поискового индекса. Вместо полной перестройки индекса при появлении новых патентных заявок, система позволяет добавлять и учитывать новые данные постепенно. Такой подход существенно сокращает время, необходимое для актуализации информации, минимизируя периоды недоступности системы и обеспечивая её высокую отзывчивость. Благодаря этому, пользователи получают доступ к самым свежим данным о патентной активности практически мгновенно, что особенно важно для быстро меняющейся сферы финансовых инноваций. Инкрементные обновления позволяют поддерживать актуальность поискового индекса, избегая дорогостоящих и трудоемких операций полной переиндексации.

Применение разработанной системы к данным финансовых патентов CNIPA позволило значительно повысить точность и эффективность поиска предшествующего уровня техники в области финансовых инноваций. Достигнутый показатель Recall@200, равный 44.44%, демонстрирует, что система способна находить релевантные патенты в 44.44% случаев при анализе первых 200 результатов, что существенно превосходит традиционные методы поиска. Это означает, что исследователям и разработчикам предоставляется более полный и актуальный обзор существующих технологий, что способствует ускорению инновационного процесса и снижению рисков нарушения патентных прав. Повышенная эффективность поиска позволяет сократить время, затрачиваемое на анализ предшествующего уровня техники, и сконцентрироваться на разработке новых, оригинальных решений.

Для повышения точности и релевантности рекомендаций патентов в сфере финансовых технологий, система использует классификационные коды, что позволяет сузить область поиска и обеспечить соответствие предлагаемых документов конкретным направлениям инноваций. В ходе тестирования на данных CNIPA Financial Patent Data, система продемонстрировала выдающиеся результаты: значение MRR составило 0.1782, а nDCG — 0.1831 при использовании алгоритма HNSW-Large, что свидетельствует о передовых показателях производительности. При этом, благодаря оптимизированной архитектуре, система способна выполнять обновления поискового индекса всего за 288 секунд, гарантируя оперативность и актуальность предоставляемой информации.

В данной работе исследователи вновь пытаются обуздать хаос патентных данных, используя большие языковые модели. Это напоминает бесконечную гонку за ускользающей эффективностью. Система рекомендаций патентов, основанная на HNSW и LLM, кажется элегантным решением для отслеживания быстро меняющегося ландшафта финансовых технологий. Однако, как показывает опыт, любая, даже самая изощрённая система, рано или поздно потребует переработки. Как однажды заметил Дональд Дэвис: «Всё новое — это просто старое с худшей документацией». И действительно, за красивым фасадом машинного обучения часто скрываются те же самые проблемы, просто обёрнутые в новые алгоритмы и библиотеки.

Что дальше?

Представленная работа, несомненно, демонстрирует возможность применения больших языковых моделей к задаче рекомендации патентных ссылок в быстро меняющейся области финансовых технологий. Однако, иллюзия автоматизированного поиска релевантной информации всегда сталкивается с суровой реальностью: патентные поверенные найдут способы обойти любую систему, чтобы укрепить свою позицию. Поиск «ближайших соседей» на графах — элегантное решение, но со временем любая архитектура станет анекдотом, когда объём данных достигнет критической массы.

Наиболее вероятный путь развития — это не улучшение алгоритмов, а создание более изощрённых способов обхода системы. Попытки учитывать контекст и намерения авторов патентов обречены на провал, поскольку человеческая изобретательность всегда опережает любые алгоритмические модели. Необходимо признать, что задача автоматической патентной аналитики — это, по сути, постоянное переизобретение костылей с новым логотипом.

Вместо того, чтобы стремиться к «интеллектуальным» системам, возможно, стоит сосредоточиться на создании инструментов, которые просто облегчают ручной анализ. Нам не нужно больше микросервисов — нам нужно меньше иллюзий. В конечном счете, ценность информации определяется не алгоритмом, а экспертом, способным её интерпретировать.


Оригинал статьи: https://arxiv.org/pdf/2601.16775.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-26 20:45