Инвестиции с оглядкой на будущее: как учитывать ESG-факторы в портфеле

Автор: Денис Аветисян


Новый подход позволяет оптимизировать инвестиционный портфель, динамически учитывая ESG-ограничения и улучшая как финансовые показатели, так и соответствие принципам устойчивого развития.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
В рамках исследования алгоритмов обучения с подкреплением для формирования портфеля активов, предложен подход MACF-X, который, в отличие от стандартного DRL, сохраняет структуру наблюдений и вознаграждений, основанную исключительно на финансовых данных, и интегрирует информацию об экологических, социальных и управленческих факторах (ESG) посредством внешнего обучения на основе затрат MACF и ограничений оптимизатора, избегая при этом модификации самой функции вознаграждения.
В рамках исследования алгоритмов обучения с подкреплением для формирования портфеля активов, предложен подход MACF-X, который, в отличие от стандартного DRL, сохраняет структуру наблюдений и вознаграждений, основанную исключительно на финансовых данных, и интегрирует информацию об экологических, социальных и управленческих факторах (ESG) посредством внешнего обучения на основе затрат MACF и ограничений оптимизатора, избегая при этом модификации самой функции вознаграждения.

В статье представлена методика интеграции ESG-ограничений в последовательную оптимизацию портфеля посредством обучения с подкреплением и использования разномодальных данных для определения ESG-издержек.

Несмотря на растущую популярность ESG-инвестирования, существующие подходы часто сводятся к использованию статических оценок, не учитывающих динамику рынков и специфику портфельных решений. В статье ‘Beyond ESG Scores: Learning Dynamic Constraints for Sequential Portfolio Optimization’ предложен новый метод интеграции ESG-ограничений в процесс оптимизации портфеля, основанный на обучении с подкреплением и учете многомодальных данных для формирования зависимых от действий оценок ESG-стоимости. Такой подход позволяет избежать проблем, связанных с несоответствием частоты и точности статических ESG-оценок, и одновременно повысить финансовую эффективность и соответствие ESG-критериям. Не откроет ли это путь к созданию более адаптивных и устойчивых инвестиционных стратегий, учитывающих как финансовые, так и экологические, социальные и управленческие факторы?


Пределы Традиционной ESG-Интеграции

Инвестирование в соответствии с принципами ESG (экология, социальная ответственность и управление) стремительно набирает популярность, однако на практике его реализация зачастую опирается на упрощенные и статичные оценки. Многие существующие подходы сводятся к присвоению компаниям единого ESG-рейтинга, который не учитывает динамику изменений в их деятельности и внешних факторах. Такой подход игнорирует тот факт, что устойчивость — это не фиксированное состояние, а непрерывный процесс адаптации к новым вызовам и возможностям. В результате, инвесторы рискуют полагаться на устаревшую информацию, что снижает эффективность управления рисками и препятствует достижению долгосрочной устойчивости портфеля.

Современные подходы к оценке ESG-факторов, основанные на статичных рейтингах, зачастую не отражают реальную динамику устойчивого развития, что серьезно ограничивает эффективность управления рисками. Существующие системы оценки, как правило, предоставляют моментальный снимок экологических, социальных и управленческих показателей компании, игнорируя при этом их изменение во времени. Это означает, что инвестиционные решения могут основываться на устаревшей информации, не учитывающей, например, прогресс компании в снижении выбросов парниковых газов или улучшении условий труда. В результате, инвесторы могут недооценивать или переоценивать риски, связанные с конкретными активами, и упускать возможности для более эффективного управления портфелем с учетом принципов устойчивого развития. Неспособность статичных оценок адекватно отражать динамику ESG-факторов требует разработки более гибких и адаптивных методологий, способных учитывать эволюцию показателей и обеспечивать более точную оценку рисков и возможностей.

Традиционные методы оптимизации портфеля, несмотря на свою надежность и устоявшуюся практику, демонстрируют ограниченную способность к адаптации к быстро меняющимся факторам экологической, социальной и управленческой ответственности (ESG). Существующие алгоритмы, как правило, оперируют статичными данными и не учитывают динамику показателей ESG, что приводит к неполной оценке рисков и упущенным возможностям. В результате, портфели, сформированные с использованием этих методов, могут оказаться недостаточно устойчивыми к долгосрочным изменениям в регуляторной среде, потребительских предпочтениях и технологических инновациях, влияющих на показатели устойчивого развития. Необходимость в разработке более гибких и адаптивных моделей оптимизации, способных учитывать эволюцию ESG-факторов в режиме реального времени, становится все более очевидной для обеспечения долгосрочной эффективности и устойчивости инвестиций.

Для построения контекста MACF используются структурированные данные ESG, включающие ежедневные рыночные характеристики, агрегированные микро-события, информацию о рисках компаний, состояние конкурентов и макроэкономические режимы, дополняемые изменениями весов, задаваемыми портфельной DRL-политикой.
Для построения контекста MACF используются структурированные данные ESG, включающие ежедневные рыночные характеристики, агрегированные микро-события, информацию о рисках компаний, состояние конкурентов и макроэкономические режимы, дополняемые изменениями весов, задаваемыми портфельной DRL-политикой.

Ограниченная Оптимизация: Путь к Динамичному ESG

Оптимизация политики с ограничениями по вознаграждению (Reward-Constrained Policy Optimization) представляет собой мощный фреймворк для достижения баланса между финансовой доходностью и целями устойчивого развития. В отличие от традиционных методов оптимизации, ориентированных исключительно на максимизацию прибыли, данный подход позволяет напрямую включать критерии ESG (Environmental, Social, and Governance) в процесс принятия инвестиционных решений. Это достигается путем определения целевых уровней для показателей устойчивости и использования их в качестве ограничений при оптимизации инвестиционного портфеля, что позволяет находить решения, обеспечивающие приемлемую финансовую отдачу при соблюдении заданных ESG-требований. Фреймворк применим к широкому спектру инвестиционных стратегий и позволяет учитывать различные типы ESG-ограничений, такие как выбросы углекислого газа, социальная ответственность и корпоративное управление.

Включение факторов ESG в инвестиционные стратегии возможно путем их формализации в виде ограничений на кумулятивные издержки. Этот подход позволяет рассматривать этические соображения не как отдельные цели, а как неотъемлемую часть процесса оптимизации. Вместо максимизации только финансовой прибыли, задача формулируется как оптимизация портфеля с учетом заданных лимитов на совокупные затраты, связанные с негативным воздействием на окружающую среду, социальную сферу и управление (ESG). Это позволяет напрямую интегрировать требования устойчивого развития в алгоритмы принятия инвестиционных решений, обеспечивая соответствие портфеля заданным этическим критериям без ущерба для финансовой эффективности.

В рамках подхода оптимизации с ограничениями ключевым элементом является использование функции стоимости (Cost Function) для количественной оценки риска или воздействия, связанного с конкретными инвестиционными решениями. В ходе практической реализации было продемонстрировано снижение давления на бюджет ESG в «хвосте» распределения (tail ESG budget pressure), то есть в ситуациях с высокой вероятностью превышения установленных лимитов, при одновременном сохранении уровня финансовой эффективности. Функция стоимости позволяет формализовать ESG-факторы как ограничения, что обеспечивает более точную оценку и управление рисками, связанными с устойчивым развитием, без ущерба для доходности инвестиций. C = \sum_{i=1}^{n} w_i \cdot L_i , где C — функция стоимости, w_i — веса, отражающие приоритетность ESG-факторов, и L_i — показатели, характеризующие воздействие инвестиций на соответствующие факторы.

Для каждого актива стоимость MACF, обусловленная действиями, формируется за один шаг путем объединения текущих ESG-данных, контекста портфеля и изменения веса, после чего общая кодировка и специализированные блоки оценки рисков (добавления, удержания и перетекания) формируют компоненты на уровне актива, которые агрегируются в ESG-стоимость и неопределенность портфеля для адаптера MACF-X.
Для каждого актива стоимость MACF, обусловленная действиями, формируется за один шаг путем объединения текущих ESG-данных, контекста портфеля и изменения веса, после чего общая кодировка и специализированные блоки оценки рисков (добавления, удержания и перетекания) формируют компоненты на уровне актива, которые агрегируются в ESG-стоимость и неопределенность портфеля для адаптера MACF-X.

Переключение Осуществимости: Баланс между Вознаграждением и Соблюдением Ограничений

Метод Feasibility Switching является расширением алгоритма Reward-Constrained Policy Optimization и заключается в чередовании фаз улучшения вознаграждения и обеспечения соблюдения ограничений. В отличие от традиционных подходов, оптимизирующих только вознаграждение, Feasibility Switching итеративно переключается между двумя целями: максимизацией доходности и поддержанием соответствия заданным ограничениям, таким как ESG-принципы. Это позволяет более эффективно исследовать пространство решений и находить стратегии, одновременно обеспечивающие высокую прибыль и соблюдение установленных правил, что особенно важно в динамичной инвестиционной среде.

Итеративный подход, применяемый в методе Feasibility Switching, обеспечивает эффективное исследование пространства решений за счет чередования фаз оптимизации доходности и соблюдения ограничений. Данный процесс позволяет одновременно максимизировать финансовые результаты и соответствовать принципам ESG (экологическое, социальное и корпоративное управление). Постоянное взаимодействие между оптимизацией целевой функции и контролем за выполнением ограничений позволяет находить решения, удовлетворяющие как экономическим, так и этическим требованиям, что особенно важно в динамично меняющейся инвестиционной среде.

Метод Feasibility Switching демонстрирует эффективность в решении задачи балансировки взаимоисключающих целей в динамичной инвестиционной среде. Подтверждением служит анализ чувствительности модели, показывающий увеличение среднеквадратичной ошибки (RMSE) в диапазоне от 0.039 до 0.150 при исключении ключевых компонентов. Более того, наблюдается существенное снижение площади под кривой ROC90 (AUC90) с 0.954 до 0.544, что указывает на значительное ухудшение способности модели к различению классов при нарушении баланса между оптимизацией доходности и соблюдением ограничений.

Исследование демонстрирует, что подход к оптимизации портфеля, основанный на динамическом изучении ограничений, позволяет выйти за рамки традиционных ESG-рейтингов. Вместо того, чтобы рассматривать ESG-факторы как простой сигнал о доходности, предлагается изучать их влияние на основе разнородных данных. Этот метод позволяет системе адаптироваться к изменяющимся условиям и находить оптимальные решения, сочетающие финансовую эффективность и соответствие ESG-принципам. Как однажды заметил Брайан Керниган: «Простота — это главное. Стремитесь к максимальной простоте». Именно к этой простоте и ясности стремится данная работа, предлагая элегантный способ интеграции сложных ESG-ограничений в процесс принятия решений.

Куда Ведет Эта Дорога?

Представленная работа, по сути, не просто оптимизирует портфель с учетом ESG-факторов, а пытается понять, как эти факторы вообще влияют на динамику системы. Уход от упрощенного представления ESG как простого сигнала к покупке или продаже — шаг в верном направлении, но он лишь открывает ящик Пандоры. Вопрос в том, насколько адекватно мы способны извлекать и интерпретировать «мультимодальные доказательства» — ведь любое знание есть лишь приближение к истине, а шум всегда превосходит сигнал. Особенно когда речь идет о субъективных оценках, зашитых в ESG-рейтинги.

Следующим этапом представляется не просто обучение «ограничениям, зависящим от действий», но и разработка методов для верификации этих ограничений. Как убедиться, что модель действительно отражает реальные взаимосвязи, а не просто воспроизводит исторические паттерны? Необходимы инструменты для «реверс-инжиниринга» этих ограничений, для понимания, что стоит за каждым из них. Иначе мы рискуем создать самоисполняющееся пророчество, где ESG-оценка становится лишь ярлыком, а не индикатором реального воздействия.

В конечном счете, задача состоит не в том, чтобы оптимизировать портфель, а в том, чтобы понять систему. А для этого необходимо постоянно подвергать сомнению правила, взламывать ограничения и искать новые способы извлечения знания из хаоса данных. В конце концов, именно в этом и заключается суть прогресса.


Оригинал статьи: https://arxiv.org/pdf/2605.09310.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-12 13:19