Извлечение фактографической информации

 

Что такое фактографическая информация?

Фактографической информацией традиционно называется информация о лицах, должностях, организациях, географических названиях, т.е. таких объектах в тексте на естественном языке, которые однозначно соотносятся с объектами, существующими в действительности. Данные объекты (или сущности) выявляются в тексте, чтобы информацию о фактах можно было копить в автоматическом режиме. Например, открыв базу данных фактографической информации, можно увидеть, кто в какой период времени занимал пост министра финансов и когда он был смещен, а прочтя новости, из которых была извлечена данная информация, можно узнать почему.

 

Наш алгоритм выявления и сбора фактографической информации.

Компания  ООО «Компьютерные системы ЛКС» создала собственный алгоритм выявления фактографической информации, в котором на первом этапе с помощью различных словарей (имен, фамилий, географических названий, сокращений) и текстовых маркеров (кавычек, определенных способов написания) выявляются разрозненные объекты, а на втором этапе данные объекты связываются между собой на основании морфологических, синтаксических и семантических критериев. Данные объекты и связи между ними структурируются и сохраняются в базу данных. По всей базе накопленной информации можно осуществлять поиск по разным параметрам.