Технология выделения сюжетов в информационном потоке

 

Что такое сюжет? И зачем его выделять?

Сюжет – совокупность новостей об одном событии. Ежедневно сотни новостных источников публикуют информацию об одном и том же событии, и каждая появившаяся новость отличается от другой некоторыми новыми подробностями и фактами. Вполне естественным оказывается собирать все эти новости вместе и выделять из данной группы наиболее значимые, полные и актуальные новости, чтобы пользователь не тратил времени на чтение всего массива текстов. Выделение сюжетов нужно отличать от устранения дубликатов новостей. Дубликатом в нашей системе считается одна из двух новостей, текст которой точно повторяет текст другой, и при этом источники двух новостей разные.

 

Как мы собираем сюжеты?

Выделение сюжетов реализовано на нескольких крупных новостных сайтах и на сайтах поисковых систем. Наш алгоритм основывается на пересечениях в лексике собираемых новостей. Особую значимость для выделения сюжетов имеет фактографическая лексика, т.е. имена лиц, географические названия, названия организаций и др. Точности выделения сюжета способствует использование словарей синонимов и гиперонимов. Технически определение сюжетов происходит посредством кластеризации, при этом центром образованных кластеров становятся центральные новости сюжета. Сюжет выделяется за один день – выбор временного интервала определяется тем, что сюжет обычно имеет развитие (особенно это касается событий, которые длятся несколько дней, например, саммиты или предвыборные кампании), вчерашняя новость в таком сюжете не может конкурировать с сегодняшней, поэтому новости за вчерашний день в сюжет не включаются.

 

Как выглядит выделение сюжета в наших продуктах?

Выделение сюжетов реализовано для всех продуктов мониторинга СМИ. В Сводке новостей и Автопубликаторе под названием "Новости сюжета" представлены остальные новости, включенные в сюжет, кроме просматриваемой. В системах мониторинга Электронная газета и ЛКС Аналитика каждая новость в «Ленте новостей» имеет параметр «Сюжет», в котором отражена информация, относится ли эта новость к более крупному сюжету или нет. Если новость входит в какой-либо сюжет, то можно просмотреть все новости этого сюжета, сама новость является в этом случае центральной для всего сюжета.