Обратный звонок
Ваше имя Телефон

Работаем с 1993 года

Как собирать позитив-негатив из СМИ и соцмедиа? 

Sunday, May 13, 2018 1:33:06 PM

 

Что такое хорошо и что такое плохо, и как это выражается в речи, интуитивно понятно каждому. А как этому научить машину, занимающуюся мониторингом СМИ и социальных сетей?

Иллюстрация из книги Владимира Маяковского

Иллюстрация из книги Владимира Маяковского

Тональность высказывания

Назовем тональностью способность слова, высказывания или текста характеризовать объект или лицо в позитивном или негативном плане. Другими словами,  тональность - это положительная или отрицательная оценка автором текста объекта или лица, о котором идет речь. Например:

  • хороший специалист,
  • некачественная работа.

Если говорить упрощенно, то, чтобы корректно решить задачу определения тональности высказывания или текста, в системе "ЛКС Аналитика" предпринят подход, при котором на тексты разной тематической направленности накладывается лексика из универсальных словарей оценочной лексики - как позитивной, так и негативной. В них содержится соответствующая общеизвестная лексика, несущая эмоциональную или этическую оценку: молодец, прекрасный, полезный, вредный, бесполезный, бессмысленный и т.п.

Словари тональности (негатив и позитив)

Вот примеры взаимодействия текстового фрагмента со словарями негатива (Негативная лексика выделена полужирным) в примерах из газет.):

(1) В ходе расследования сотрудники СКР нашли и другие темные пятна в биографии Вороненкова, писал «Коммерсант». В 1990-е он работал в военной прокуратуре и службе безопасности ФСКН, не имея высшего образования и предоставив работодателям фальшивые документы о нем. -

(2) В соцсетях на этот счет появились многочисленные шутки, связанные с допинговым скандалом, который разразился, пока Мутко отвечал в России за спорт. Многие также вспомнили скандалы, связанные со строительством «Зенит Арены».

Сейчас по интернету гуляют несколько анекдотов, которые своим решением породил Медведев. Вот один из них: ««Для подъема строительная отрасль России нуждается в хорошем допинге», – прокомментировал Мутко свое назначение на должность вице-премьера по строительству в правительстве Медведева».

Россияне не понимают, как столь критикуемый чиновник может демонстрировать такую невероятную политическую живучесть.

Почему словари позитива-негатива нужно пополнять?

Словари позитива и негатива пополняемые, или открытые. Почему их нужно пополнять? Дело в том, что эмотивная лексика в языке не статична, постоянно появляются новые модные слова, словечки, фразы, с помощью которых современные люди выражают то или иное отношение к сообщаемому. Вот примеры негативной оценки: индивидуй - преобразованное иноязычное индивид слово приобретает оформление, аналогично холуй и др.; эскортница - здесь носителем негатива является корень слова, причем в рамках  текста негатив будет относиться к тому, кто воспользовался услугами представительницы соответствующей профессии.

А вот примеры соединения факта (нейтральной информации) с оценкой: дойка бюджета, токсичный актив, панамское досье.

Значительное место в современных оценочных текстах занимают англоязычные заимствования с негативной окраской: кейс, харассмент; инсайд, фейк и их производные (инсайдер, фейковый). В последнее время чемпионом стал суффиксоидный словообразовательный  формант -гейт, обозначающий "скандальное дело": присоединяясь к слову справа, он образует слова с отрицательной оценкой: вайнштейнгейт (скандал, связанный с эротическими похождениями голливудского продюсера), рашагейт (дело об отравлении Скрипаля), слуцкий-гейт (эротический скандал на родной российской почве).

Мало того, что есть слова, которые напрямую несут позитивную или негативную оценку (их мы рассмотрели выше), есть слова - текстовые сигналы о том, далее последует неблагоприятная для объекта мониторинга информация: возможные слухи - якобы, жесткие факты, противоречащие сладкой или нейтральной дейсвительности - а (но) на самом деле:

(3) Во время президентства Мутко "Зенит" добился внушительных спортивных результатов: занял третье место на чемпионате России в 2001 году и второе место в 2003 году. В то же время отдельные наблюдатели отмечали, что своими победами клуб был обязан прежде всего чешскому тренеру Властимилу Петржеле, а Мутко якобы скорее мешал тренеру, влезая в сферу его компетенции.

(4) Сегодня 8 марта. Международный женский день. Праздник, который часто и неправильно считают просто днем, когда все мальчики должны поздравить всех девочек, подарить им цветы и пожелать оставаться самыми красивыми, «настоящими украшениями нашего коллектива».

Но на самом деле, сегодняшний праздник гораздо более серьезный. Это день солидарности с борьбой женщин за эмансипацию, равные права и справедливость.

Это отличный, очень правильный и нужный праздник. И сегодня я бы тоже хотел выразить свою солидарность. С теми смелыми журналистками, которые не побоялись и недавно выступили против отвратительного депутата Слуцкого, обвинив его в сексуальных домогательствах.

Обнаружив лингвистический механизм формирования и функционирования негатива, специалисты по мониторингу информации сталкиваются с технологической задачей: к примеру, как искать формант гейт, который имеет варианты написания со словом, к которому примыкает, как соединять несобственно негативные слова-сигналы с именем объекта мониторинга в рамках автоматического мониторинга. Мы можем с уверенностью сказать, что в "ЛКС Аналитике" названные технологические задачи успешно решены.

Тональность и сфера существования объекта мониторинга

Задача определения позитивной или негативной тональности публикации изначально была поставлена коммерческими организациями, которые ведут PR-компании с 1990-х - 2000-х годов и следят за своим имиджем в сети Интернет. Сообщение о некачественном обслуживании или браке в продукте незамедлительно сказывается на прибыли компании.

Однако за последние годы та же проблема затронула государственные организации, для которых упоминание руководителей, самой организации, территориальных отделов в негативном ключе влияет на представление общества о госучреждении и о  государственном управлении в целом. Поэтому пресс-службы госучреждений внимательно следят за сообщениями в СМИ, блогах и социальных сетях и отслеживают разные типы сообщений:

- слухи, компромат

- скандалы

- обвинения в коррупции

- утечку ценной информации

- жалобы на сотрудников

- жалобы на некачественное исполнение обязанностей.

Как осуществляется автоматический поиск подобной информации? Как мы увидели, есть определенный  набор эмотивно окрашенных фраз и ключевых слов, который достаточно точно определяет позитивную или негативную характеристику сообщения – эта часть работы обслуживается универсальными оценочными словарями системы "ЛКС Аналитика".

Однако негативная или позитивная оценка сообщения лишь частично зависит от лексики, содержащейся в универсальных оценочных словарях. Для каждой сферы деятельности, каждой отрасли хозяйства есть типовые ситуации, которые воспринимаются людьми положительно или отрицательно:

ЖКХ:

лифт починен (+) - лифт не работает (-).

Дорожно-строительная фирма:

ровная, быстрая дорога (+) - яма на дороге (-).

Банки:

открытие офиса, участие в акциях по  защите животных (+) - блокировка карт клиентов (-), угроза банкроства.

Реновация жилого фонда:

имущественные гарантии жильцам  (+) -  снос качественного жилья (-).

Именно поэтому ограничивается разработка единого алгоритма определения тональности для всех типов задач, который бы в любой теме точно распределял информацию на негативную, позитивную и нейтральную.

В связи с этим работа лингвиста заключается в индивидуальной настройке семантического фильтра, который будет искать позитив и негатив именно в нужной заказчику сфере.

Первый этап работы лингвиста – это анализ исходных текстов, вычленение из сообщений релевантных фрагментов, которые станут основой для семантического фильтра. Затем лингвист формирует словари и связи словарей, создает фильтр. На третьем этапе фильтр тестируется на большом массиве текстов. После настройки и установки фильтра лингвист продолжает отслеживать тему и корректировать фильтр. Таким образом обеспечивается высокое качество фильтрации информации и распределения негатива и позитива.

Елена Никитина, компьютерный лингвист

Ольга Биккулова, компьютерный лингвист