Что такое хорошо и что такое плохо, и как это выражается в речи, интуитивно понятно каждому. А как этому научить машину, занимающуюся мониторингом СМИ и социальных сетей?
Тональность высказывания
Назовем тональностью способность слова, высказывания или текста характеризовать объект или лицо в позитивном или негативном плане. Другими словами, тональность - это положительная или отрицательная оценка автором текста объекта или лица, о котором идет речь. Например:
- хороший специалист,
- некачественная работа.
Если говорить упрощенно, то, чтобы корректно решить задачу определения тональности высказывания или текста, в системе "ЛКС Аналитика" предпринят подход, при котором на тексты разной тематической направленности накладывается лексика из универсальных словарей оценочной лексики - как позитивной, так и негативной. В них содержится соответствующая общеизвестная лексика, несущая эмоциональную или этическую оценку: молодец, прекрасный, полезный, вредный, бесполезный, бессмысленный и т.п.
Словари тональности (негатив и позитив)
Вот примеры взаимодействия текстового фрагмента со словарями негатива (Негативная лексика выделена полужирным) в примерах из газет.):
(1) В ходе расследования сотрудники СКР нашли и другие темные пятна в биографии Вороненкова, писал «Коммерсант». В 1990-е он работал в военной прокуратуре и службе безопасности ФСКН, не имея высшего образования и предоставив работодателям фальшивые документы о нем. -
(2) В соцсетях на этот счет появились многочисленные шутки, связанные с допинговым скандалом, который разразился, пока Мутко отвечал в России за спорт. Многие также вспомнили скандалы, связанные со строительством «Зенит Арены».
Сейчас по интернету гуляют несколько анекдотов, которые своим решением породил Медведев. Вот один из них: ««Для подъема строительная отрасль России нуждается в хорошем допинге», – прокомментировал Мутко свое назначение на должность вице-премьера по строительству в правительстве Медведева».
Россияне не понимают, как столь критикуемый чиновник может демонстрировать такую невероятную политическую живучесть.
Почему словари позитива-негатива нужно пополнять?
Словари позитива и негатива пополняемые, или открытые. Почему их нужно пополнять? Дело в том, что эмотивная лексика в языке не статична, постоянно появляются новые модные слова, словечки, фразы, с помощью которых современные люди выражают то или иное отношение к сообщаемому. Вот примеры негативной оценки: индивидуй - преобразованное иноязычное индивид слово приобретает оформление, аналогично холуй и др.; эскортница - здесь носителем негатива является корень слова, причем в рамках текста негатив будет относиться к тому, кто воспользовался услугами представительницы соответствующей профессии.
А вот примеры соединения факта (нейтральной информации) с оценкой: дойка бюджета, токсичный актив, панамское досье.
Значительное место в современных оценочных текстах занимают англоязычные заимствования с негативной окраской: кейс, харассмент; инсайд, фейк и их производные (инсайдер, фейковый). В последнее время чемпионом стал суффиксоидный словообразовательный формант -гейт, обозначающий "скандальное дело": присоединяясь к слову справа, он образует слова с отрицательной оценкой: вайнштейнгейт (скандал, связанный с эротическими похождениями голливудского продюсера), рашагейт (дело об отравлении Скрипаля), слуцкий-гейт (эротический скандал на родной российской почве).
Мало того, что есть слова, которые напрямую несут позитивную или негативную оценку (их мы рассмотрели выше), есть слова - текстовые сигналы о том, далее последует неблагоприятная для объекта мониторинга информация: возможные слухи - якобы, жесткие факты, противоречащие сладкой или нейтральной дейсвительности - а (но) на самом деле:
(3) Во время президентства Мутко "Зенит" добился внушительных спортивных результатов: занял третье место на чемпионате России в 2001 году и второе место в 2003 году. В то же время отдельные наблюдатели отмечали, что своими победами клуб был обязан прежде всего чешскому тренеру Властимилу Петржеле, а Мутко якобы скорее мешал тренеру, влезая в сферу его компетенции.
(4) Сегодня 8 марта. Международный женский день. Праздник, который часто и неправильно считают просто днем, когда все мальчики должны поздравить всех девочек, подарить им цветы и пожелать оставаться самыми красивыми, «настоящими украшениями нашего коллектива».
Но на самом деле, сегодняшний праздник гораздо более серьезный. Это день солидарности с борьбой женщин за эмансипацию, равные права и справедливость.
Это отличный, очень правильный и нужный праздник. И сегодня я бы тоже хотел выразить свою солидарность. С теми смелыми журналистками, которые не побоялись и недавно выступили против отвратительного депутата Слуцкого, обвинив его в сексуальных домогательствах.
Обнаружив лингвистический механизм формирования и функционирования негатива, специалисты по мониторингу информации сталкиваются с технологической задачей: к примеру, как искать формант гейт, который имеет варианты написания со словом, к которому примыкает, как соединять несобственно негативные слова-сигналы с именем объекта мониторинга в рамках автоматического мониторинга. Мы можем с уверенностью сказать, что в "ЛКС Аналитике" названные технологические задачи успешно решены.
Тональность и сфера существования объекта мониторинга
Задача определения позитивной или негативной тональности публикации изначально была поставлена коммерческими организациями, которые ведут PR-компании с 1990-х - 2000-х годов и следят за своим имиджем в сети Интернет. Сообщение о некачественном обслуживании или браке в продукте незамедлительно сказывается на прибыли компании.
Однако за последние годы та же проблема затронула государственные организации, для которых упоминание руководителей, самой организации, территориальных отделов в негативном ключе влияет на представление общества о госучреждении и о государственном управлении в целом. Поэтому пресс-службы госучреждений внимательно следят за сообщениями в СМИ, блогах и социальных сетях и отслеживают разные типы сообщений:
- слухи, компромат
- скандалы
- обвинения в коррупции
- утечку ценной информации
- жалобы на сотрудников
- жалобы на некачественное исполнение обязанностей.
Как осуществляется автоматический поиск подобной информации? Как мы увидели, есть определенный набор эмотивно окрашенных фраз и ключевых слов, который достаточно точно определяет позитивную или негативную характеристику сообщения – эта часть работы обслуживается универсальными оценочными словарями системы "ЛКС Аналитика".
Однако негативная или позитивная оценка сообщения лишь частично зависит от лексики, содержащейся в универсальных оценочных словарях. Для каждой сферы деятельности, каждой отрасли хозяйства есть типовые ситуации, которые воспринимаются людьми положительно или отрицательно:
ЖКХ:
лифт починен (+) - лифт не работает (-).
Дорожно-строительная фирма:
ровная, быстрая дорога (+) - яма на дороге (-).
Банки:
открытие офиса, участие в акциях по защите животных (+) - блокировка карт клиентов (-), угроза банкроства.
Реновация жилого фонда:
имущественные гарантии жильцам (+) - снос качественного жилья (-).
Именно поэтому ограничивается разработка единого алгоритма определения тональности для всех типов задач, который бы в любой теме точно распределял информацию на негативную, позитивную и нейтральную.
В связи с этим работа лингвиста заключается в индивидуальной настройке семантического фильтра, который будет искать позитив и негатив именно в нужной заказчику сфере.
Первый этап работы лингвиста – это анализ исходных текстов, вычленение из сообщений релевантных фрагментов, которые станут основой для семантического фильтра. Затем лингвист формирует словари и связи словарей, создает фильтр. На третьем этапе фильтр тестируется на большом массиве текстов. После настройки и установки фильтра лингвист продолжает отслеживать тему и корректировать фильтр. Таким образом обеспечивается высокое качество фильтрации информации и распределения негатива и позитива.
Елена Никитина, компьютерный лингвист
Ольга Биккулова, компьютерный лингвист