Большие языковые модели и A/B-тесты: когда «улучшение» не сломает статистику.

Автор: Денис Аветисян

Все мы устали от того, что каждая новая «революционная» технология в итоге оказывается просто техническим долгом, а реальность всегда разбивает радужные прогнозы. Когда кажется, что уже все исследовано и оптимизировано, возникает вопрос: а можно ли вообще существенно повысить эффективность рандомизированных экспериментов, не прибегая к сомнительным уловкам и не внося статистические искажения? Именно в этот момент появляется работа, ставящая под сомнение устоявшиеся принципы и спрашивающая: «Смогут ли языковые модели действительно повысить мощность рандомизированных экспериментов без статистической предвзятости?», предлагая не просто новый метод, а радикально иной подход к извлечению ценной информации из неструктурированных данных и, возможно, открывая новую эру в каузальном анализе.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Мы сравнили CALM с другими подходами — как с теми, что не требуют примеров, так и с теми, где их немного — и увидели, что даже элегантная теория нуждается в проверке на практике. В симуляциях Монте-Карло CALM показал себя достойно, но всегда помните: любой метод — лишь приближение к истине, а реальные данные могут преподнести сюрприз.

Причинность в эпоху данных: когда элегантность встречается с реальностью

Установление причинно-следственных связей остаётся критически важной задачей, особенно в таких областях, как здравоохранение. Однако традиционные методы часто оказываются бессильными перед лицом высокоразмерных, реальных данных. Мы привыкли к элегантным схемам, но реальность диктует свои правила: чем сложнее система, тем сложнее в ней что-то доказать.

Рандомизированные контролируемые испытания (РКИ) по-прежнему считаются «золотым стандартом», но и они имеют свою цену. Они дороги, требуют много времени, а главное – зачастую неэтичны в масштабах, необходимых для решения реальных проблем. В конечном итоге, мы сталкиваемся с неизбежным компромиссом между строгостью и практичностью.

Использование неструктурированных данных – например, клинических заметок – открывает огромный потенциал. Однако и здесь нас подстерегают подводные камни. Эти данные полны шума и предвзятости, и для извлечения из них полезной информации требуются сложные методы. Мы не рефакторим код – мы реанимируем надежду, пытаясь отделить сигнал от помех.

Структура данных исследования BRIGHTEN по управлению депрессией. Косинусная схожесть между различными пре-процедурными ковариатами и результатами в BRIGHTEN показывает, что неструктурированные данные сильно предсказывают основной результат.

Всё, что оптимизировано, рано или поздно оптимизируют обратно. Поэтому, вместо того, чтобы искать идеальные решения, мы должны стремиться к созданию гибких и адаптивных систем, способных справляться с неопределенностью и извлекать максимальную пользу из доступных данных. Иначе говоря, нам нужен не элегантный теоретический каркас, а надежный инструмент.

CALM: когда мало данных, а амбиций много

В последнее время все эти ‘революционные’ технологии машинного обучения стали чем-то вроде коллективного самообмана. Обещают золотые горы, а на деле – бесконечные циклы отладки и переобучения. И вот, исследователи предлагают CALM – статистическую основу для интеграции предсказаний больших языковых моделей (LLM) в процессы причинно-следственного вывода. Звучит масштабно, но суть проста: попытаться выжать максимум информации из тех данных, которые у нас есть, даже если их катастрофически мало.

Традиционные подходы, как правило, требуют огромных объёмов данных для обучения. А что делать, если данных кот наплакал? Здесь на помощь приходит CALM. Она позволяет использовать LLM даже в условиях ограниченного обучения, применяя техники, такие как zero-shot и few-shot обучение. Что это значит? Ну, примерно как если бы вы попросили опытного специалиста решить задачу, которую он никогда раньше не видел. Он может опираться на свой опыт и знания, чтобы найти решение, даже без специальной подготовки.

По сути, CALM расширяет существующие методы, такие как взвешенное обратное вычисление вероятности (AIPW), добавляя предсказания LLM в качестве прогностических переменных. Это как если бы вы добавили ещё один источник информации к уже существующим, чтобы повысить точность и эффективность анализа. Впрочем, как известно, в реальном мире всё гораздо сложнее. Но, по крайней мере, они попытались.

Сравнение оценок ATE и соответствующих 95% доверительных интервалов, полученных в исследовании BRIGHTEN с использованием AIPW и CALM-based методов.

Впрочем, даже самая изящная теория разбивается о суровую реальность. И здесь, как всегда, возникает вопрос: насколько эта ‘революционная’ технология устойчива к сбоям? Сколько времени потребуется, чтобы исправить все ошибки? И, самое главное, кто будет этим заниматься? Но, по крайней мере, они попытались сделать что-то новое. А это уже неплохо.

Гетерогенная калибровка: приручение предвзятости в больших языковых моделях

Итак, мы говорим о больших языковых моделях и причинно-следственных выводах. Звучит как рецепт катастрофы, если не позаботиться о деталях. Ведь эти модели, при всей своей впечатляющей способности генерировать текст, могут быть предвзятыми. А предвзятость в данных — это как ошибка в коде: рано или поздно она проявится, и результат будет далёк от истины.

Поэтому исследователи разработали технику гетерогенной калибровки. Звучит сложно, но суть проста: мы пытаемся исправить систематические ошибки в предсказаниях языковой модели. Это как отладка кода: мы находим проблемные места и корректируем их, чтобы получить более точный результат. Без калибровки, все эти ‘революционные’ модели будут генерировать красивые графики и умные выводы, которые, в конечном итоге, окажутся просто шумом.

Эта калибровка критически важна, потому что языковые модели, при всей своей мощи, могут демонстрировать смещения, которые, если их не учитывать, приведут к ошибочным выводам. В конечном итоге, мы хотим получить не просто красивые предсказания, а достоверные оценки причинно-следственных связей.

Сравнение стандартного отклонения при различных механизмах генерации синтетических результатов.

Для оценки эффективности предложенного подхода исследователи использовали данные исследования BRIGHTEN — рандомизированного контролируемого испытания, в котором анализировались неструктурированные данные. BRIGHTEN предоставляет реальный контекст для оценки производительности CALM, особенно при работе с неструктурированными данными, которые, как известно, являются источником шума и предвзятости. В конечном счёте, всё сводится к тому, чтобы получить надёжные результаты, которые можно использовать для принятия обоснованных решений.

Персонализированная причинность: от усреднённых оценок к индивидуальным ответам

Авторы данной работы утверждают, что стандартные методы анализа причинно-следственных связей часто дают усреднённую картину, игнорируя индивидуальные различия в ответах на лечение. Это всё равно что пытаться настроить сервер, полагаясь только на логи — быстро, но не всегда эффективно. К счастью, предложенный ими CALM позволяет выявить гетерогенность эффекта лечения, то есть определить, кому именно конкретное вмешательство принесёт пользу, а кому — нет.

Вместо того, чтобы оперировать общими средними, CALM позволяет взглянуть на ситуацию более детально. Это как перейти от мониторинга CPU к анализу каждого процесса — сложнее, но гораздо информативнее. Использование предсказаний больших языковых моделей (LLM) в сочетании с надёжными техниками калибровки позволяет выявить скрытые закономерности и оптимизировать подходы к лечению.

Возможность проведения персонализированного причинно-следственного анализа имеет глубокие последствия для здравоохранения. Это как перейти от пакетной обработки запросов к микросервисам — сложнее в реализации, но гораздо гибче и масштабируемее. Врачи смогут адаптировать лечение к индивидуальным характеристикам пациента и прогнозируемому ответу, что позволит повысить эффективность лечения и сократить неравенство в доступе к качественной медицинской помощи.

Калибровочный весωt(x) для страт “раса” и “пол” с использованием метода CALM zero-shot learning в сравнении с методом AIPW и снижение дисперсии в сравнении с оценщиком AIPW.

Авторы не отрицают, что каждая новая ‘революционная’ технология неминуемо порождает новый уровень технического долга. Но они справедливо полагают, что в данном случае потенциальные выгоды от повышения эффективности лечения и сокращения неравенства в доступе к медицинской помощи перевешивают риски. И хотя документация по CALM, как и всегда, оставляет желать лучшего, предложенный ими подход, безусловно, заслуживает внимания.

«Любая абстракция умирает от продакшена» — Эрик С. Реймонд

Ах, эти большие языковые модели… CALM, значит. Красивое название, элегантная идея — использовать их для повышения точности оценки эффекта лечения в рандомизированных контролируемых испытаниях. Как всегда, теория прекрасна. Но я, повидавший немало деплоев, знаю: всё, что можно задеплоить – однажды упадёт. Не важно, насколько гениально вы интегрируете неструктурированные данные или используете few-shot learning. Продакшен найдёт способ сломать эту абстракцию. И знаете что? Будет красиво. Главное, чтобы не слишком дорого.

Что дальше?

Итак, мы научили большую языковую модель копаться в неструктурированных данных, чтобы точнее измерить эффект от случайных экспериментов. Прекрасно. Как будто у нас не хватало способов усложнить себе жизнь. Не поймите меня неправильно, CALM – это мило, но давайте будем честны: мы не пишем код, мы просто оставляем комментарии для будущих археологов, которые будут гадать, почему мы решили, что корреляция – это причинность, используя очередной «прорывной» алгоритм. В конце концов, любой «cloud-native» фреймворк – это просто та же самая проблема, только дороже.

Настоящая проблема не в том, чтобы выжать максимум из RCT, а в том, что мы часто пытаемся применить их там, где они не работают. Если данные грязные, а предположения не соответствуют реальности, никакая языковая модель не спасет. Вместо того, чтобы гнаться за точностью оценок эффектов, возможно, стоит потратить время на разработку более robust методов идентификации причинно-следственных связей, которые не полагаются на идеально контролируемые эксперименты? Или, может быть, просто признать, что многие проблемы не имеют простых решений.

И давайте не забывать: если система стабильно падает, значит, она хотя бы последовательна. В конечном итоге, каждая «революционная» технология завтра станет техдолгом. Будем надеяться, что когда-нибудь мы научимся не повторять одни и те же ошибки, используя новые, более сложные инструменты. Хотя, конечно, это уже слишком оптимистично.

Оригинал статьи: https://arxiv.org/pdf/2510.05545.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/