Что такое автоматическое определение тональности?
Определение тональности сообщения (англ. Sentiment Analisys, сентимент-анализ) - это один из необходимых компонентов анализа текста, который предполагает выяснение отношения автора текста к объекту или теме сообщения. Сообщение может быть окрашено положительно, отрицательно или нейтрально по отношению к объекту или теме.
Зачем нужно определение тональности сообщений?
Автоматическое определение тональности сегодня востребовано в первую очередь SMM-специалистами, бренд-менеджерами, PR-агентами, т.е. теми, кто ответственен за продвижение продукта и рекламу, а также авторами консьюминг-обзоров, ставящих задачей анализ и рекламу современных продуктов, в глянцевых журналах. Руководство любой компании хочет знать мнение своих клиентов. Из миллионов упоминаний бренда, продукта, компании, лица в социальных медиа и СМИ часть является позитивной или нейтральной, а часть - негативной. Сентимент-анализ позволяет вычленить различные мнения из потока информации, структурировать их и работать с ними прицельно: менеджерам - вовремя реагировать на отрицательные отзывы, увеличивать целевую аудиторию и гибко менять стратегию продвижения, журнальным авторам - составлять дайджесты, учитывая мнения Интернет-аудитории.
Как мы решаем задачу автоматического определения тональности текста?
Разработанный нами алгоритм основан на сочетании тональных словарей и правил их применения. Такая технология широко применяется в системах мониторинга и дает на сегодняшний день максимально достоверные результаты. Алгоритм имеет различные принципы работы с новостными СМИ и с социальными медиа, а также различает тональность "объективную" и "субъективную". Например, сообщения (констатирующие высказывания) о чрезвычайных ситуациях, терактах или фактах коррупции, а также о невыполнении должностными лицами своих обязанностей, относятся к "объективной " тональности, а мнения (оценочные высказывания) о лицах, компаниях, товарах, извлекаемые из социальных СМИ, квалифицируются как "субъективная" тональность. Такой диверсифицированный подход позволяет эффективно определять тональность и настраивать его под конкретную тему мониторинга. Настройка предполагает изучение предметной области, интересующей заказчика, и тесное взаимодействие с заказчиком для того, чтобы максимально точно скорректировать словарь, в котором собирается лексика, связанная с выражением "объективной" тональности. При этом интуитивно понятно, что "субъективная" тональность совсем не зависит или мало зависит от предметной области: хороший, прекрасный (ноутбук, ресторан, обслуживающий персонал...) - плохой, отвратительный (ноутбук, ресторан, обслуживающий персонал...).
Сложной и ответственной задачей является разрешение проблемы мены тональности высказывания за счет влияния отрицания и специальных предикатов на лексическую тональность (т.н. правила). Умный - неумный, не умный; нанести ущерб - возместить ущерб; есть совесть - потерял совесть, - все эти сочетания слов алгоритм должен относить к разной тональности. Эта задача разрешима в рамках предлагаемого нами алгоритма в большинстве случаев.
В редких случаях, когда алгоритм может работать некорректно (ирония, сарказм и под.), пользователь может самостоятельно исправить тональность. В наших системах мониторинга предусмотрена возможность корректировки тональности конкретных сообщений.
Статистический анализ и отображение тональности
Эмоционально окрашенные сообщения и мнения доступны для дальнейшего статистического анализа. Количественные характеристики сообщений можно отобразить в графиках и диаграммах, а также экспортировать в MS Excel.