Фильтрация данных


Фильтрация данных (классификация) - технология разделения входящего текстового потока на рубрики с помощью лингвистических фильтров. Лингвистические фильтры создаются квалифицированными лингвистами на специальном языке описания предметной области, использующем всю лингвистическую информацию при анализе неструктурированных текстов на естественном языке. Для создания лингвистических фильтров используется специально разработанный программный комплекс. Он позволяет:

  • создавать сложную многоуровневую структуру фильтра;
  • использовать для поиска понятий информацию о морфологической форме и синтаксической функции слов (задавать слово, конкретную форму слова, словоформы, объединенные одним морфологическим признаком, и даже не связанный со словом морфологический признак);
  • использовать информацию о взаимном расположении понятий в тексте;
  • использовать информацию о фактографических объектах текста;
  • использовать словари синонимов, квазисинонимов и гиперонимов для составления фильтров;
  • использовать атрибуты – заголовок, источник, дату – для установления параметров поиска;
  • задавать любые логические связи между элементами фильтра (конъюнкция, дизъюнкция, импликация, отрицание и пр.);
  • задавать относительную значимость элементов.

 

Сложные и трудоемкие в разработке лингвистические фильтры иногда оказываются избыточны для удовлетворения конкретных информационных потребностей заказчика, поэтому в системе мониторинга СМИ "ЛКС Аналитика" классификация может осуществляться и самим пользователем с помощью модуля создания пользовательских фильтров. Функционал данного модуля достаточен для решения текущих несложных вопросов классификации. Модуль позволяет:

  • создавать разветвленное дерево фильтров;
  • использовать информацию о взаимном расположении понятий в тексте;
  • использовать расширение по словарям синонимов, квазисинонимов и гиперонимов;
  • задавать базовые логические операции между элементами.

При конечном представлении информации пользовательские и лингвистические фильтры представляют собой одно дерево. Для каждой рубрики в классификаторе подсчитывается релевантность, выделяются наиболее значимые фрагменты текста, относящие его к этой рубрике. Классификация позволяет пользователю получить актуальную структурированную информацию, в каждой рубрике отсортированную по релевантности.

Рубрика "Другие"

 

Отсеянная при фильтрации информация сохраняется в базе данных. При работе в полнофункциональных системах мониторинга (Электронная газета и ЛКС Аналитика) пользователь имеет к ней доступ, выбрав в дереве рубрик рубрику «Другие». Кроме просмотра отсеянной информации пользователь может использовать ее для аналитической работы. Функция полнотекстового поиска позволяет обращаться ко всей базе данных и искать все имеющиеся в базе сообщения в независимости от разделения информации на рубрики.