Автор: Денис Аветисян
Новое исследование выявляет проблему функционального снижения искусственного интеллекта при анализе неструктурированных медицинских данных, аналогичную метаболической дисфункции печени.
"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.
Бесплатный Телеграм каналВ статье вводится концепция AI-MASLD (AI-Metabolic Dysfunction-Associated Steatotic Liver Disease) для описания снижения производительности больших языковых моделей при обработке сложных клинических повествований.
Несмотря на впечатляющие успехи в области обработки естественного языка, большие языковые модели (LLM) демонстрируют снижение функциональности при работе со сложными клиническими данными. В данной работе, озаглавленной ‘AI-MASLD Metabolic Dysfunction and Information Steatosis of Large Language Models in Unstructured Clinical Narratives’, впервые эмпирически подтверждена тенденция к “информационному стеатозу” LLM при анализе неструктурированных медицинских текстов, что авторы метафорически назвали AI-MASLD. Исследование выявило, что даже самые передовые модели склонны к ошибкам при интерпретации клинических данных, особенно в условиях высокой зашумленности. Ставит ли это под сомнение возможность широкого применения LLM в здравоохранении без постоянного контроля со стороны квалифицированных специалистов?
Шум в данных: вызов для языковых моделей
Всё чаще большие языковые модели (БЯМ) внедряются для обработки сложных и неструктурированных клинических отчетов, однако они сталкиваются с присущими медицинским текстам шумам и неоднозначностями. Клинические повествования, как правило, изобилуют избыточной информацией, повторениями и нерелевантными деталями, что затрудняет для БЯМ выделение ключевых фактов и построение логических выводов. Эта сложность обусловлена не только спецификой медицинской терминологии, но и субъективностью врачебных описаний, вариативностью стилей изложения и наличием сокращений, жаргона и неполных данных. В результате, даже самые передовые БЯМ могут допускать ошибки при анализе клинических текстов, что создает риски для точности диагностики и безопасности пациентов.
Традиционные методы обработки естественного языка (NLP) часто оказываются неспособны эффективно извлекать ключевую информацию из клинических отчетов, поскольку те перегружены избыточностью и несущественными деталями. Медицинская документация, как правило, содержит повторения, описания незначительных симптомов и обширные вводные фразы, которые затрудняют для алгоритмов выделение действительно важных данных. В результате, системы, основанные на устаревших подходах NLP, могут упускать критические факты, интерпретировать их неверно или тратить ресурсы на обрабочение ненужной информации, что снижает точность диагностики и увеличивает риск ошибок. Неспособность отфильтровать «шум» в клинических текстах является серьезной проблемой, требующей разработки более совершенных методов анализа.
Неспособность больших языковых моделей (LLM) отделить релевантную информацию от шума в клинических данных представляет собой серьезную угрозу точности диагностики и безопасности пациентов. Поскольку медицинские записи часто содержат избыточную, нерелевантную или двусмысленную информацию, модели могут делать ошибочные выводы, приводя к неверным диагнозам или неадекватным планам лечения. В связи с этим, крайне важна разработка надежных метрик оценки, которые способны точно измерять способность LLM выделять клинически значимые данные и игнорировать отвлекающие факторы. Оценка должна выходить за рамки простых показателей точности и включать в себя анализ способности модели к логическому мышлению, пониманию контекста и выявлению тонких закономерностей в сложных медицинских текстах, что позволит обеспечить надежность и безопасность применения LLM в клинической практике.
Первоначальные оценки, проведенные с использованием стандартизированных медицинских тестов, выявили значительную вариативность в производительности различных больших языковых моделей. Результаты, представленные в виде баллов по разработанной обратной шкале, колебались от 16 до 32 из 80 возможных, что указывает на существенную потребность в улучшении способностей к логическому мышлению и анализу. Такой разброс показателей подчеркивает, что современные модели испытывают трудности с обработкой сложных клинических данных и точным выделением ключевой информации, необходимой для принятия обоснованных решений. Несмотря на прогресс в области искусственного интеллекта, текущие возможности LLM в медицинской сфере требуют дальнейшего развития, особенно в части повышения надежности и точности интерпретации клинических нарративов.
Функциональное снижение LLM: концепция AI-MASLD
В рамках исследования предложен концепт AI-MASLD (AI-based Metabolic Dysfunction-Associated Steatotic Liver Disease) для описания функционального ухудшения больших языковых моделей (LLM) при обработке сложной медицинской информации. Аналогия с метаболической дисфункцией печени выбрана для отражения постепенного накопления избыточной информации и снижения способности к точному анализу и принятию решений. AI-MASLD рассматривается как модель, позволяющая систематизировать и изучать наблюдаемые деградации в производительности LLM при решении задач, требующих глубокого понимания и критической оценки медицинских данных.
Проявление AI-MASLD характеризуется двумя основными состояниями: Информационным стеатозом и Алгоритмическим фиброзом. Информационный стеатоз представляет собой избыточное предоставление корректной, но нерелевантной информации, что затрудняет выделение ключевых данных. Алгоритмический фиброз проявляется в негибкости при оценке рисков, когда модель демонстрирует затруднения в адаптации к изменяющимся обстоятельствам и переоценивает или недооценивает определенные факторы, что приводит к неоптимальным результатам.
Результаты нашего поперечного анализа показали, что языковые модели, демонстрирующие признаки AI-MASLD, испытывают трудности при решении задач, требующих тонкого рассуждения и точной приоритизации рисков. Наблюдалось снижение эффективности в сценариях, где необходима дифференцированная оценка множественных факторов и выделение наиболее значимых, что указывает на нарушение способности к комплексному анализу и принятию обоснованных решений в сложных медицинских контекстах. Это проявляется в неспособности корректно ранжировать потенциальные риски и выделять критически важную информацию из большого объема данных.
В ходе проведенного анализа производительности больших языковых моделей (LLM) при обработке сложных медицинских данных, средний общий балл составил 27 из 80, что указывает на умеренный уровень функционирования. При этом наблюдался значительный разброс результатов: модель Qwen3-Max показала наименьший балл — 16/80, в то время как Gemini 2.5 достигла наиболее высокого результата — 32/80. Данный диапазон баллов демонстрирует вариативность степени функционального снижения, проявляющегося в контексте AI-MASLD, и необходимость дальнейшей оценки способности моделей к точному рассуждению и приоритизации рисков.
Оценка когнитивных способностей LLM: ключевые показатели
Оценка когнитивных способностей больших языковых моделей (LLM) проводилась по четырем ключевым параметрам: фильтрации шума, обнаружению противоречий, разделению эмоциональной окраски и фактов, а также расстановке приоритетов. Фильтрация шума оценивала способность модели игнорировать нерелевантную информацию; обнаружение противоречий — выявлять логические несоответствия в тексте; разделение эмоций и фактов — отделять субъективные оценки от объективных данных; а приоритезация — определять наиболее важные элементы в заданном контексте. Каждый параметр оценивался по шкале, и суммарный результат позволял комплексно оценить когнитивные способности каждой протестированной модели.
В ходе оценки когнитивных способностей больших языковых моделей (LLM) Gemini 2.5 продемонстрировала наихудшие результаты по всем оцениваемым параметрам, включая фильтрацию шумов, обнаружение противоречий, отделение фактов от эмоций и приоритизацию задач. Общий балл модели составил 32/80 по нашей инвертированной шкале оценки, что указывает на её систематическое отставание от других протестированных LLM, таких как Qwen3-Max, DeepSeek 3.1 и GPT-4o. Данный результат свидетельствует о низкой эффективности Gemini 2.5 в решении задач, требующих критического анализа и логического мышления.
В ходе оценки когнитивных способностей больших языковых моделей (LLM) Qwen3-Max продемонстрировала наилучшие результаты, набрав всего 16 баллов из 80 по нашей инвертированной шкале. Превосходство модели Qwen3-Max особенно заметно в задачах фильтрации шума и отделения эмоционально окрашенной информации от фактов. Это указывает на более высокую способность модели выделять релевантную информацию и избегать влияния посторонних факторов при обработке данных, что делает ее наиболее эффективной среди протестированных моделей.
В ходе оценки когнитивных способностей больших языковых моделей (LLM) было выявлено, что DeepSeek 3.1 демонстрирует значительное улучшение в обнаружении противоречий по сравнению с GPT-4o. Средний балл DeepSeek 3.1 составил 21/80, в то время как GPT-4o набрал 25/80. Данный результат указывает на более развитый процесс рассуждения в DeepSeek 3.1, позволяющий модели более эффективно выявлять логические несоответствия в представленной информации. Оценка проводилась по шкале, где более низкий балл указывает на более высокую производительность.
Пути к надежным LLM: смягчение AI-MASLD
Исследования показали, что контроль “диеты данных” — обучение больших языковых моделей (LLM) на более аутентичных и неструктурированных клинических данных — может облегчить симптомы AI-MASLD. В отличие от обучения на тщательно отобранных или синтетических данных, использование реальных клинических записей, включающих неполные предложения, сокращения и вариации в стиле изложения, позволяет LLM лучше понимать и обрабатывать неоднородность реальных медицинских текстов. Это приводит к снижению склонности модели к генерации неправдоподобных или нерелевантных ответов, характерных для AI-MASLD, и повышает ее способность к точному извлечению и интерпретации клинической информации из неструктурированных источников.
Обучение с подкреплением на основе обратной связи от человека (RLHF) позволяет повысить точность выявления ранних признаков заболеваний и улучшить стратификацию рисков при использовании больших языковых моделей (LLM). В процессе RLHF, эксперты-медики предоставляют обратную связь о качестве ответов LLM на клинические вопросы, оценивая, насколько адекватно модель выявляет и приоритизирует предупреждающие симптомы. Эта обратная связь используется для корректировки параметров модели посредством алгоритмов обучения с подкреплением, что позволяет ей более эффективно распознавать и классифицировать пациентов в соответствии с уровнем риска, а также более точно оценивать вероятность прогрессирования заболевания. Применение RLHF позволяет модели выходить за рамки простого распознавания симптомов и строить более сложные модели оценки рисков, основанные на экспертных знаниях.
Целью предложенных интервенций является повышение способности больших языковых моделей (LLM) к построению четкой хронологической последовательности (Timeline Sorting) развития заболевания. Это достигается за счет улучшения способности LLM выявлять и корректно упорядочивать симптомы и события, относящиеся к различным стадиям патологии. Точное построение временной шкалы позволяет LLM более эффективно оценивать прогрессирование заболевания, выявлять критические моменты и прогнозировать возможные осложнения, что является ключевым для своевременной и адекватной клинической поддержки. Улучшенное Timeline Sorting также способствует более точной стратификации рисков и принятию обоснованных решений в отношении лечения.
Внедрение предложенных стратегий, включающих контроль качества обучающих данных и обучение с подкреплением на основе обратной связи от специалистов, направлено на создание более надежных и устойчивых языковых моделей для клинической поддержки. Ожидается, что применение данных подходов позволит снизить средний итоговый балл оценки производительности моделей с текущих 27/80 до менее чем 20/80. Это улучшение будет достигнуто за счет повышения точности и своевременности предоставляемой информации, что критически важно для поддержки принятия клинических решений и улучшения качества медицинской помощи.
Исследование демонстрирует, что даже самые мощные языковые модели сталкиваются с трудностями при обработке неструктурированных клинических данных. Это подобно метаболической дисфункции, когда теоретические знания не конвертируются в практическое применение. Авторы справедливо отмечают разрыв между потенциалом и реальной эффективностью. Как говорил Анри Пуанкаре: «Наука не состоит из ряда истин, а из методов». Сложность клинических нарративов требует не просто объема знаний, а способности к точному извлечению информации и рассуждению — принципов, которые, как показывает работа, не всегда надежно работают в современных моделях. Абстракции стареют, принципы — нет.
Что дальше?
Предложенное понятие AI-MASLD — не диагноз, но скорее признание ограниченности. Сложность клинических текстов, их неоднородность и неявные смыслы обнажают несостоятельность моделей обработки языка, когда дело доходит до реального применения. Теоретические знания, накопленные в процессе обучения на структурированных данных, оказываются бесполезными перед лицом хаоса реальной медицинской практики. Это не столько ошибка алгоритма, сколько закономерное следствие попытки упростить сложное.
Будущие исследования должны сместить фокус с улучшения экстракции информации как таковой на понимание причин ее потери. Необходимо отказаться от иллюзии полного охвата и признать, что некоторые нюансы клинических записей принципиально не поддаются формализации. Вместо того чтобы стремиться к идеальной точности, следует сосредоточиться на разработке механизмов, способных распознавать и сигнализировать о собственной некомпетентности — признавать области, где модель не может дать надежного ответа.
Возможно, истинный прогресс заключается не в создании более сложных моделей, а в принятии их фундаментальных ограничений. Задача не в том, чтобы научить машину думать как врач, а в том, чтобы создать инструмент, который поможет врачу думать лучше, осознавая границы своих знаний и возможностей. Скромность — добродетель, как в медицине, так и в искусственном интеллекте.
Оригинал статьи: https://arxiv.org/pdf/2512.11544.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Мечел акции прогноз. Цена MTLR
- Стоит ли покупать фунты за йены сейчас или подождать?
- Аналитический обзор рынка (16.12.2025 00:32)
- Золото прогноз
- Аналитический обзор рынка (10.12.2025 04:32)
- ЛУКОЙЛ акции прогноз. Цена LKOH
- Что такое дивидендный гэп и как на этом заработать
- ВСМПО-АВИСМА акции прогноз. Цена VSMO
- Аналитический обзор рынка (16.12.2025 12:15)
- Стоит ли покупать доллары за мексиканские песо сейчас или подождать?
2025-12-15 08:38