Ежедневно наша программа Интернет-мониторинга "Интернет-паук" собирает информацию из тысяч источников сети Интернет. Программа распознает значимую информацию из указанного источника, выделяет ее и добавляет в базу данных, при этом отсекая рекламу и лишнюю информацию. Источниками для сбора информации служат любые ресурсы сети Интернет: новостные сайты, RSS-ленты, форумы, блоги и микроблоги, социальные сети, порталы госзакупок и любые другие сайты, по Вашему желанию.
Каждый Интернет-ресурс требует определенного подхода к сбору информации, поэтому мы разработали различные технологии мониторинга Интернет-ресурсов:
Вся собранная информация проходит через систему лингвистических фильтров, специально разработанную для Вас нашими лингвистами. Фильтры создаются на специальном языке и учитывают морфологические и семантические свойства слов, а также логические и синтаксические связи слов в тексте. В результате точной семантической фильтрации информация распределяется по рубрикам. В каждой рубрике содержатся сообщения, строго соответствующие заданной теме, без информационного шума. Вы больше не просматриваете всю информацию, Вы получаете сразу только нужную информацию.
На этапе фильтрации мы используем различные технологии прикладной лингвистики:
В Сводке новостей или Автопубликаторе результаты фильтрации вы получаете в виде текста (по электронной почте или в качестве ленты новостей на сайте соответственно). Если же вы работаете с полнофункциональными системами - веб-сервисом Электронная газета или системой ЛКС Аналитика - Вам доступны различные функции для дальнейшего анализа информации. Вы работаете не только с отфильтрованными сообщениями, но со всем массивом собранной на первом этапе информации.
Специфические технологии, применяемые на этом этапе: