Предсказание смертности: новый взгляд на ансамблевое обучение

Автор: Денис Аветисян

Исследование предлагает усовершенствованный подход к прогнозированию смертности, основанный на динамическом взвешивании моделей с использованием SHAP-значений.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

В анализе данных о смертности в Норвегии, Испании и США, ансамбли SHAP демонстрируют зависимость точности прогноза (измеряемой среднеквадратичной ошибкой [latex]MSE[/latex]) от горизонта прогнозирования, указывая на то, что краткосрочные прогнозы более надежны, чем долгосрочные. — В анализе данных о смертности в Норвегии, Испании и США, ансамбли SHAP демонстрируют зависимость точности прогноза (измеряемой среднеквадратичной ошибкой $MSE$ ) от горизонта прогнозирования, указывая на то, что краткосрочные прогнозы более надежны, чем долгосрочные.

В статье представлен ансамблевый метод, использующий SHAP-значения для повышения точности и стабильности прогнозов смертности, в сравнении с традиционными подходами.

Несмотря на признанную эффективность комбинирования прогнозов в задачах оценки смертности, вопрос оптимального взвешивания отдельных моделей остается открытым. В данной работе, посвященной теме ‘Enhancing Mortality Forecasting with Ensemble Learning: A Shapley-Based Approach’, предложен новый ансамблевый подход, использующий значения Шепли для динамического определения вклада каждой модели в итоговый прогноз. Полученные результаты демонстрируют, что предложенная методика позволяет повысить точность и стабильность прогнозов смертности для 24 стран ОЭСР, особенно на долгосрочном горизонте. Возможно ли дальнейшее совершенствование данной модели за счет учета дополнительных факторов и адаптации к специфике различных популяций?

Тень Неопределенности: Вызовы Точного Прогнозирования Смертности

Точное прогнозирование смертности имеет решающее значение для финансовой стабильности, планирования в сфере общественного здравоохранения и актуарной науки, однако традиционные методы часто сталкиваются с трудностями при долгосрочных прогнозах. Существующие модели, такие как модель Ли-Картера, несмотря на широкое применение, могут не учитывать сложные тенденции смертности и неожиданные потрясения. Неспособность адекватно предвидеть изменения в смертности может приводить к значительным финансовым рискам для страховых компаний и пенсионных фондов, а также к неэффективному распределению ресурсов в системе здравоохранения. Поэтому, разработка более совершенных методов прогнозирования, учитывающих различные факторы риска и неопределенности, является важной задачей для ученых и практиков.

Несмотря на широкое распространение и устоявшуюся репутацию, такие модели прогнозирования смертности, как модель Ли-Картера, демонстрируют ограниченную способность учитывать сложные тенденции и непредсказуемые потрясения. Эти модели, основанные на исторических данных и экстраполяции, зачастую не способны адекватно реагировать на изменения в образе жизни, технологические прорывы в медицине или внезапные кризисы, такие как пандемии. Их линейная структура может упрощать реальную картину, игнорируя нелинейные взаимосвязи и скрытые факторы, влияющие на продолжительность жизни. В результате, долгосрочные прогнозы, построенные на подобных моделях, могут оказаться неточными и ввести в заблуждение при планировании финансовых стратегий или оценке рисков в сфере здравоохранения и страхования. Поэтому, для повышения надежности прогнозов смертности требуется разработка более гибких и адаптивных моделей, способных учитывать широкий спектр влияющих факторов и неопределенностей.

Неизбежная неопределенность прогнозирования будущей смертности требует разработки надежных методик, позволяющих количественно оценить интервалы предсказаний и эффективно управлять рисками. Традиционные подходы часто сосредотачиваются на точечных прогнозах, игнорируя диапазон возможных исходов, что может привести к серьезным последствиям для финансовой стабильности и планирования в сфере здравоохранения. Современные исследования направлены на создание моделей, способных не только предсказывать среднюю продолжительность жизни, но и оценивать вероятность различных сценариев, учитывая такие факторы, как эпидемии, технологические прорывы и изменения в образе жизни. $P(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ — подобное применение статистических инструментов позволяет формировать доверительные интервалы, обеспечивая более реалистичную оценку будущей смертности и, следовательно, более обоснованные решения в долгосрочной перспективе.

Анализ среднеквадратичной ошибки (СКО) стандартизированных показателей смертности для мужчин и женщин в Японии и Италии выявил различия в зависимости от возрастной группы.

Ансамблевое Усиление: Гармония Разнородных Моделей

Ансамблевое обучение (EnsembleLearning) позволяет повысить точность и устойчивость прогнозов путем комбинирования предсказаний различных моделей. В частности, для построения ансамблей используются такие модели, как CairnsBlakeDowdModel, LeeCarterModel и FunctionalTimeSeries, каждая из которых обладает своими сильными и слабыми сторонами. Объединение прогнозов этих разнородных моделей позволяет сгладить индивидуальные погрешности и получить более надежный и точный результат, чем при использовании какой-либо одной модели в отдельности.

Для стратегического объединения прогнозов различных моделей, таких как CairnsBlakeDowdModel, LeeCarterModel и FunctionalTimeSeries, применяются методы усреднения SimpleModelAveraging и взвешивания по критерию информационного байесовского критерия (AICWeighting). SimpleModelAveraging предполагает равное взвешивание каждого прогноза, в то время как AICWeighting назначает веса на основе относительной вероятности каждой модели, оцениваемой с использованием AIC. Данный подход позволяет учесть как качество соответствия модели данным (fit), так и ее сложность, избегая переобучения и повышая общую точность прогнозов за счет компенсации слабых сторон отдельных моделей. Веса, рассчитанные с использованием AIC, пропорциональны $exp(-AIC_i/2)$ , где $AIC_i$ — значение AIC для i-й модели.

Использование ансамблевых методов основывается на признании того, что любая отдельная модель прогнозирования имеет свои ограничения и подвержена ошибкам. Комбинирование прогнозов нескольких моделей, особенно с использованием методов взвешенного усреднения, позволяет снизить влияние индивидуальных недостатков и повысить общую надежность прогнозов. Каждая модель вносит свой вклад, компенсируя слабые стороны других, что приводит к более устойчивым и точным результатам, особенно в условиях высокой неопределенности или неполноты данных. Взвешивание моделей по критериям, таким как информационный критерий Акаике (AIC), позволяет приоритизировать модели, наилучшим образом соответствующие данным, и оптимизировать процесс комбинирования.

Ансамбли SHAP демонстрируют более точные прогнозы по сравнению с отдельными моделями как для женщин в Японии, так и для мужчин в Ирландии.

Рассечение Вклада: Оценка Значимости с Помощью SHAP

Для определения относительной важности каждой модели в ансамбле используется метод SHAP (SHapley Additive exPlanations), основанный на принципах кооперативной теории игр. SHAPValues рассчитывают вклад каждой модели в итоговый прогноз, рассматривая все возможные комбинации моделей и определяя средний маргинальный вклад каждой модели в каждую комбинацию. В результате, каждой модели присваивается значение, отражающее её средний вклад в снижение ошибки прогноза, что позволяет оценить её значимость в контексте ансамбля и выявить потенциальные избыточные или недостаточно используемые модели. Расчет SHAPValues требует значительных вычислительных ресурсов, особенно для больших ансамблей и наборов данных.

Значения SHAP (SHapley Additive exPlanations) позволяют оценить вклад каждого отдельного компонента (модели) в ансамбле в формирование итогового предсказания. Каждой модели присваивается значение, отражающее ее средний вклад в изменение предсказания по сравнению со средним предсказанием по всем данным. Анализ значений SHAP выявляет модели, вносящие незначительный или избыточный вклад, что указывает на потенциальные возможности для упрощения ансамбля и повышения его эффективности. Например, модели с постоянно низкими абсолютными значениями SHAP могут быть удалены без существенной потери точности, а модели с высокой корреляцией в их значениях SHAP могут указывать на избыточность, требующую дальнейшего исследования.

Анализ вклада каждой модели в ансамбль неразрывно связан с компромиссом между смещением и дисперсией $\text{Bias-Variance Tradeoff}$ . Понимание того, как каждая модель способствует снижению смещения (систематической ошибки) и дисперсии (чувствительности к изменениям в данных) критически важно для оптимизации ансамбля. Модели с высоким смещением могут упрощать данные, упуская важные детали, в то время как модели с высокой дисперсией могут переобучаться на тренировочных данных и плохо обобщаться на новые данные. Оптимальный ансамбль стремится к балансу между этими двумя факторами, используя сильные стороны каждой модели для минимизации общей ошибки прогнозирования.

Результаты Diebold-Mariano теста для стран ОЭСР показывают, что ансамбль SHAP превосходит методы SMA и AIC по доле случаев, когда его прогноз точнее, при оценке на целых значениях возраста от 0 до 100, при этом синие значения указывают на более высокую долю превосходства.

Оптимизация Состава: Путь к Устойчивости и Точности

Применение пороговой обработки, основанной на значениях SHAP, позволяет исключить из ансамбля модели, вносящие незначительный вклад в итоговый прогноз. Этот подход не только повышает стабильность ансамбля, делая его менее чувствительным к отдельным моделям, но и существенно улучшает интерпретируемость. Отбрасывая модели с низким влиянием, исследователи могут сосредоточиться на тех, которые действительно вносят существенный вклад в предсказания, что облегчает понимание логики работы ансамбля и выявление ключевых факторов, определяющих результат. Такой метод способствует созданию более надежных и прозрачных моделей, что особенно важно в областях, требующих высокой степени доверия к прогнозам.

Процесс формирования ансамбля моделей, основанный на исключении наименее значимых участников, способствует повышению разнообразия представленных подходов. Такое разнообразие критически важно, поскольку позволяет ансамблю учитывать различные аспекты данных и избегать ситуаций, когда все модели совершают одни и те же ошибки. Вместо концентрации на схожих прогнозах, подобный подход стимулирует интеграцию различных перспектив, что, в свою очередь, значительно снижает риск переобучения и повышает обобщающую способность ансамбля на новых, ранее не встречавшихся данных. В результате достигается более надежная и устойчивая система прогнозирования, способная адаптироваться к изменениям в данных и обеспечивать более точные результаты.

Для оценки точности и калибровки полученных интервалов предсказаний использовался показатель IntervalScore, позволяющий количественно оценить качество вероятностных прогнозов. Исследования показали, что ансамбль, сформированный на основе значений SHAP, демонстрирует значительно более низкие значения IntervalScore по сравнению с простым усреднением моделей, что указывает на улучшенные возможности оценки рисков в различных странах. Этот результат свидетельствует о том, что учет вклада каждой модели в предсказание, посредством анализа SHAP, позволяет создавать более надежные и откалиброванные интервалы предсказаний, что особенно важно в задачах, требующих точной оценки неопределенности.

Анализ SHAP-значений позволил выделить наиболее значимые методы прогнозирования (обозначенные как M1-M15, соответствующие «lc», «rh», «apc», «cbd», «m6», «m7», «m8», «plat», «lca_dt», «lca_dxt», «lca_e0», «lca_none», «fdm», «robust_fdm», и «pr»), частота выбора которых в 101 итерации отражена на тепловых картах и достигает максимума в 101 для каждого возраста от 0 до 100.

Представленное исследование, стремящееся к повышению точности прогнозирования смертности посредством ансамблевого обучения, демонстрирует, что даже самые сложные модели подвержены ограничениям. Динамическое взвешивание моделей, основанное на SHAP-значениях, позволяет минимизировать влияние предвзятости и дисперсии, что, в свою очередь, повышает стабильность прогнозов. Это напоминает о необходимости когнитивного смирения исследователя перед лицом сложности нелинейных уравнений Эйнштейна. Как заметила Мэри Уолстонкрафт: «Невозможно быть по-настоящему разумным, не признавая границ своего разума». Игнорирование этих границ, подобно падению в горизонт событий, может привести к исчезновению любой, казалось бы, прочной теории.

Что Дальше?

Предложенный подход к комбинированию моделей прогнозирования смертности, использующий SHAP-значения, безусловно, представляет собой шаг вперёд. Однако, стоит помнить, что любая модель — это лишь упрощение, карта, которая никогда не отразит всю сложность океана. Вполне возможно, что кажущееся улучшение точности — это не приближение к истине, а лишь временное совпадение, иллюзия, возникающая из-за специфики используемых данных. Когда свет изгибается вокруг массивного объекта, это как напоминание о нашей ограниченности, о границах познания.

Будущие исследования, вероятно, должны сосредоточиться на устойчивости предложенного метода к различным типам данных и периодам времени. Важно понять, не является ли улучшение прогноза результатом переобучения, и как предложенный подход взаимодействует с другими, не учтёнными факторами, влияющими на смертность. И, конечно, необходимо учитывать, что прогнозы смертности — это не только статистические упражнения, но и вопросы, имеющие глубокие социальные и этические последствия.

В конечном счёте, стремление к идеальному прогнозу смертности может оказаться бесплодным. Возможно, более ценным является понимание того, что будущее всегда остаётся неопределённым, а любая модель — лишь временная конструкция, готовая исчезнуть в горизонте событий.

Оригинал статьи: https://arxiv.org/pdf/2603.03789.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 07:45