Голос Народа: Анализ настроений в Бангладеш во время массовых протестов 2024 года

Автор: Денис Аветисян

Новое исследование посвящено анализу общественного мнения в Бангладеш во время волнений 2024 года, основанном на данных из социальных сетей.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Анализ тональности текста предполагает последовательную обработку данных - от сбора и разметки до аугментации и предварительной обработки - с последующей классификацией на категории «Гнев», «Надежда» и «Отчаяние». — Анализ тональности текста предполагает последовательную обработку данных — от сбора и разметки до аугментации и предварительной обработки — с последующей классификацией на категории «Гнев», «Надежда» и «Отчаяние».

Представлен новый датасет на бенгальском языке, охватывающий заголовки Facebook, и проведен анализ общественного мнения с использованием методов машинного обучения и обработки естественного языка для выявления преобладающих эмоций, таких как гнев, надежда и отчаяние.

Анализ общественного мнения в условиях политической нестабильности часто уступает в точности из-за языковых особенностей и отсутствия специализированных данных. В статье ‘When a Nation Speaks: Machine Learning and NLP in People’s Sentiment Analysis During Bangladesh’s 2024 Mass Uprising’ представлено исследование эмоциональной реакции общественности на массовые протесты в Бангладеш в 2024 году, основанное на уникальном корпусе новостных заголовков на бенгальском языке. Полученные результаты демонстрируют, что разработанные языковые модели превосходят универсальные трансформеры в определении преобладающих эмоций — гнева, надежды и отчаяния — и выявляют ключевые темы общественного дискурса. Может ли подобный подход стать основой для более глубокого понимания динамики социальных движений и кризисных коммуникаций в других регионах?

Восстание и Эхо в Сети: Анализ Информационного Хаоса

Восстание в Бангладеш в 2024 году спровоцировало крайне нестабильную информационную среду в социальных сетях, особенно на платформе Facebook. Потоки дезинформации, пропаганды и эмоционально окрашенных сообщений стремительно распространялись, формируя запутанную картину событий. Социальная сеть стала ареной ожесточенных споров, распространения слухов и поляризации мнений. Интенсивность дискуссий, объём публикуемого контента и скорость его распространения значительно возросли, создавая ощущение хаоса и затрудняя объективную оценку происходящего. Этот информационный взрыв оказал существенное влияние на восприятие событий как внутри страны, так и за её пределами, подчеркивая возрастающую роль социальных медиа в современных конфликтах и политических кризисах.

Понимание общественного мнения в период восстания в Бангладеш в 2024 году представляется ключевым для анализа сложных социально-политических процессов, развернувшихся в стране. Исследование настроений населения позволяет выявить глубинные причины недовольства, оценить эффективность действий правительства и прогнозировать дальнейшее развитие событий. Анализ эмоциональной окраски сообщений, распространяемых в социальных сетях, а также выявление доминирующих тем и нарративов, позволяет получить ценные сведения о мотивах протестующих и их отношении к различным политическим силам. Игнорирование общественного мнения в таких ситуациях может привести к неверной интерпретации происходящего и принятию неэффективных решений, способных усугубить существующую напряженность.

В период восстания в Бангладеш в 2024 году введение отключения интернета значительно усложнило доступ к информации и оказало существенное влияние на онлайн-дискурс. Ограничение доступа к социальным сетям и новостным платформам привело к формированию искаженной картины событий, где непроверенные слухи и дезинформация распространялись быстрее, чем достоверные факты. Отсутствие независимого источника информации способствовало усилению поляризации мнений и препятствовало объективной оценке происходящего. Данное отключение не только ограничило свободу слова, но и создало условия для манипулирования общественным мнением, подчеркивая важность обеспечения доступа к информации даже в периоды политической нестабильности и социальных потрясений.

Набор Данных для Анализа Бенгальских Настроений: Новый Инструмент в Арсенале

Представляем набор данных «Набор данных политических настроений на бенгальском языке», состоящий из 2028 заголовков публикаций Facebook, размеченных тремя основными эмоциями: «Гнев», «Надежда» и «Отчаяние». Каждый заголовок был проанализирован и помечен с указанием преобладающей эмоциональной окраски, что позволяет использовать этот набор данных для обучения и оценки моделей анализа тональности, ориентированных на бенгальский язык и политический дискурс. Размер набора данных в 2028 примеров обеспечивает достаточный объем для статистически значимых результатов при машинном обучении.

Уникальность набора данных `Bangla Political Sentiment Dataset` заключается в его направленности на конкретное социально-политическое событие и детализированной аннотации эмоциональной окраски текстов. В отличие от многих существующих наборов данных, охватывающих широкий спектр тем, данный ресурс сконцентрирован на политическом дискурсе, что позволяет проводить более точный анализ настроений в конкретном контексте. Кроме того, аннотация не ограничивается простой классификацией полярности (позитивная/негативная), а включает в себя три конкретные эмоции: гнев, надежду и отчаяние, обеспечивая гранулярное понимание эмоционального фона публикаций.

Основой представленного набора данных является бенгальский язык, что предъявляет особые требования к моделям обработки естественного языка. Эффективная работа с данным набором данных требует от моделей способности корректно анализировать морфологические и синтаксические особенности бенгальского языка, включая его сложную систему склонений и специфический порядок слов. Необходима адаптация существующих или разработка новых методов обработки естественного языка, учитывающих лингвистические особенности бенгальского языка для обеспечения высокой точности анализа тональности и эмоциональной окраски текстов на данном языке.

Облака слов, визуализирующие распределение лексики в текстах каждой из трех категорий тональности, позволяют выявить ключевые слова, определяющие позитивные, негативные и нейтральные отзывы.

Сравнительный Анализ: От Классических Алгоритмов к Трансформерам

В ходе исследования для классификации тональности текста были протестированы различные модели на основе трансформеров, включая XLM-RoBERTa, mBERT и BanglaBERT. XLM-RoBERTa представляет собой кросс-лингвальную модель, обученную на большом объеме данных, что позволяет ей эффективно работать с текстами на различных языках. mBERT — это многоязычная версия BERT, также способная к анализу текстов на разных языках. BanglaBERT, в свою очередь, является моделью, специально обученной для обработки бенгальского языка, и демонстрирует высокую эффективность при работе с текстами на этом языке. Использование трансформерных моделей позволило добиться значительных результатов в задаче определения тональности по сравнению с традиционными методами машинного обучения.

В ходе исследования для классификации тональности также применялись классические алгоритмы машинного обучения, а именно — машина опорных векторов (Support Vector Machine) и логистическая регрессия (Logistic Regression). Для извлечения признаков из текстовых данных использовался подход TF-IDF (Term Frequency-Inverse Document Frequency) с применением биграмм. Этот метод позволяет учитывать не только отдельные слова, но и их последовательности, что повышает точность определения тональности по сравнению с использованием только отдельных слов. Полученные признаки служили основой для обучения моделей машинного обучения.

В ходе исследования были оценены возможности больших языковых моделей в режиме zero-shot для классификации тональности. Результаты показали, что модель DeepSeek-R1 достигла наивысшей точности в 74.0%, незначительно превосходя BanglaBERT с результатом 72.0% и XLM-RoBERTa, показавшую точность 71.0%. Данные модели были протестированы без предварительной дообувки на целевом датасете, что демонстрирует их способность к обобщению и адаптации к новым задачам без необходимости в размеченных данных.

На изображении представлены примеры комментариев с результатами анализа тональности, аннотацией и итоговым результатом голосования.

Выявление Скрытых Смыслов: Тематическое Моделирование как Инструмент Анализа

Для выявления основных тем, формирующих общественное мнение в ходе беспорядков в Бангладеш в 2024 году, был применен алгоритм $Latent Dirichlet Allocation$ к набору данных $Bangla Political Sentiment Dataset$. Этот статистический метод позволил автоматически выделить скрытые тематические кластеры в большом объеме текстовой информации, представленной в наборе данных. В результате анализа удалось определить ключевые вопросы и нарративы, доминирующие в общественном дискурсе, что дало возможность более глубоко понять политический ландшафт и настроения населения в период кризиса. Алгоритм эффективно распределил документы по темам, основываясь на частоте встречаемости определенных слов и словосочетаний, что позволило выявить основные области обсуждения и интереса.

Анализ тематического моделирования, проведенный на основе данных о политических настроениях в Бангладеш, выявил ключевые вопросы и нарративы, определявшие общественное мнение во время восстания 2024 года. В частности, исследования показали, что доминирующими темами были вопросы экономической справедливости, коррупции и политических свобод. Выявленные нарративы указывали на широкое распространение недовольства существующим положением дел и стремление к переменам. Этот анализ позволил глубже понять причины и движущие силы протестных настроений, а также выявить основные требования и ожидания населения, что имеет важное значение для понимания политической ситуации в Бангладеш.

Сочетание анализа тональности и тематического моделирования представляет собой мощный инструмент для понимания сложных социально-политических явлений. В рамках проведенного исследования, данный подход позволил выявить не только преобладающие темы в общественном дискурсе, но и эмоциональную окраску, связанную с ними. Надежность аннотаций, оцениваемая с помощью коэффициента Коэна Каппа, составила 0.78, что свидетельствует о существенном согласии между экспертами и подтверждает объективность полученных результатов. Такой комплексный анализ позволяет глубже проникнуть в суть общественных настроений и выявить ключевые факторы, влияющие на формирование общественного мнения, что особенно важно при изучении таких событий, как восстание в Бангладеш в 2024 году.

Алгоритм LDA позволил выделить K тематических кластеров в наборе данных.

Исследование, представленное в работе, демонстрирует, как быстро эмоциональный фон может измениться в условиях политической нестабильности. Анализ данных из социальных сетей, безусловно, полезен, но он лишь отражает симптом, а не причину. Как заметил Джон фон Нейман: «В науке нет абсолютно ничего, что не было бы известно». Истина, пусть и зашумленная потоком информации, всегда доступна для анализа. В данном случае, идентификация преобладающих эмоций — отчаяния, надежды, возмущения — позволяет лучше понять контекст событий, но не предсказывает их развитие. Архитектура любой системы анализа, в конечном итоге, — это компромисс между точностью и скоростью, между полнотой данных и их интерпретацией.

Что дальше?

Накопленный корпус новостных заголовков, безусловно, является шагом вперёд. Однако, не стоит обольщаться. Каждый новый датасет — это лишь отсрочка неизбежной энтропии. Алгоритмы, прекрасно работающие на “свежих” данных, неизменно терпят крах, когда сталкиваются с реальностью, где пользователи научатся обходить системы определения тональности, используя иронию, метафоры и, что самое неприятное, здравый смысл. Выявление «отчаяния» и «надежды» — это, конечно, красиво, но давайте признаем: пока баг воспроизводится, у нас стабильная система определения эмоций. А когда не воспроизводится — значит, система работает как положено.

Более того, вся эта история с «анализом общественного мнения» напоминает попытку удержать воду решетом. Предполагается, что можно измерить нечто столь эфемерное, как «коллективное настроение». В реальности, Facebook — это эхо-камера, где каждый кричит в свой колодец. Считать, что эти крики отражают истинную картину — наивно. Вероятно, следующим шагом будет попытка построить «самовосстанавливающиеся» модели, способные игнорировать противоречия и поддерживать иллюзию согласованности. Но, как известно, всё, что обещает быть самовосстанавливающимся, просто ещё не сломалось.

И, напоследок, документация. Документация — это форма коллективного самообмана, призванная убедить всех, что система работает так, как её создатели думали. В реальности, каждый разработчик знает, что в глубинах кода скрываются монстры, готовые вырваться наружу в самый неподходящий момент. Поэтому, вместо того, чтобы тратить время на написание документации, лучше сосредоточиться на поиске и устранении этих монстров. А если монстр не найден — значит, он просто очень хорошо спрятан.

Оригинал статьи: https://arxiv.org/pdf/2512.15547.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-18 20:46