Обратный звонок
Ваше имя Телефон

Работаем с 1993 года

ИСТОРИЯ С ГЕОГРАФИЕЙ, или как найти в Интернете только нужное 

13 августа 2018 г. 15:11:52

 

Наш компьютерный лингвист рассказывает об особенностях мониторинга центральных и региональных СМИ и социальных сетей

Карта ЕвропыThis image is licensed under the Creative Commons Attribution-Share Alike 4.0 
SOURCES: CIA. (2018) The World Factbook by the Central lnt©lligenc© Agency, cla.gov Oxford University Press.(2018)
An A-Z of country name origins, oxforddlctlonar1es.com Full research available on blt.ly/UteralWoridMap

 

Когда надо найти информацию в интернете, относящуюся к определённому географическому объекту, обычно в запросе стандартно указывается интересующий населённый пункт. Такая локализация позволяет сузить круг поисков, однако не обеспечивает стопроцентную точность, приходится большой объем информации отсеивать вручную. А если нужен мониторинг множества географических объектов, то речь может идти о весьма значительных потерях времени. Поэтому при работе с географическими названиями необходимо учитывать некоторые дополнительные факторы.

Первая (и наиболее очевидная) проблема заключается в том, что далеко не все названия населённых пунктов уникальны. В советское время в редкой области не было Октябрьского или Ленинского района и редкий город обошёлся без проспекта Ленина или улицы Коммунистической. Многие улицы так и не были переименованы, поэтому на карте нашей страны есть много упоминаний Ленина, Маркса, Энгельса, Свердлова, Дзержинского и других видных политических деятелей двадцатого столетия. Не только имена руководителей компартии запечатлевались в названиях городов и весей: во многих городах есть улицы, носящие имена поэтов (Пушкина, Лермонтова, Гоголя), композиторов (особенно любим Чайковский  — улицы Чайковского есть по меньшей мере в 50 городах бывшего Советского Союза), учёных (Королёв, Циолковский) и других выдающихся личностей (Гагарин, Чкалов).  Конечно, однообразностью названий грешили не только в середине XX века. Например, название московского района Отрадное полностью совпадает с названием  города в Ленинградской области. Да что там говорить! — вспомним название поместья Ростовых из «Войны и мира» — тоже ведь Отрадное. Такая омонимия широко распространённых топонимов значительно усложняет поиск: ведь с формальной точки зрения новость будет полностью соответствовать запросу, однако будет совсем не нужна пользователю.

Кажется, что эта проблема решается просто: стоит только добавить в запрос название города или области, к которой относится искомый топоним, и ненужные новости уйдут. Но такое решение выглядит удачным только на первый взгляд. При таком подходе велика вероятность  потери многих нужных сообщений, ведь не в каждой статье авторы указывают точный адрес. Обобщая, можно сказать так: федеральные и региональные СМИ избирают разные тактики обозначения гео-объекта. Авторы центральных СМИ стараются указывать регион однозначно — именно потому, что они рассчитывают на максимально широкую аудиторию в географическом плане и осознают собственную дистанцированность и дистанцированность читателя  от той местности, о которой они сообщают. Иначе получится "на деревню дедушке".

Совсем другое дело, если речь идет о региональной прессе. Скажем, автору московской районной или городской газеты достаточно упомянуть Отрадное - и читателю сразу станет понятно, что речь идет о северо-востоке Москвы (а не о Питере и не Толстом): и автор, и читатель осознают название как уникальное в  той "сфере действия", на которую рассчитаны местные СМИ. Поэтому если речь идет о региональных изданиях, гораздо эффективнее задавать поиск топонима иначе, чем в федеральных: в лингвистическом фильтре в соединении с искомым топонимом должно встречаться не только название города, но и какие-то другие значимые названия и имена известных людей, связанных с этим местом. В случае с районом Отрадное в этот список может входить не только слово «Москва», но и «столица», «московский», «столичный», «СВАО», «северо-восток», «северо-восточный», а также фамилии мэра Москвы, префекта СВАО, главы управы района, а также муниципальных депутатов и других районных активистов. При такой технологии поиска шансы на наиболее полный охват информации значительно повышаются.

Мониторинг социальных сетей на сегодня представляет для многих клиентов — и в бизнесе, и в органах власти — огромный интерес, так как пользователи соцсетей представляют собой очень активную и современную часть общества, живо и оперативно откликающуюся на происходящее в стране или регионе, в котором живут.

Если клиента интересует мониторинг соцмедиа в региональном плане, необходимо учитывать следующее: что (1) люди, состоящие в сетевых сообществах, являясь и писателями, и читателями соцсетей, однозначно понимают, о какой именно улице или районе идёт речь, и в этом плане ситуация сопоставима с местными СМИ и что (2) члены сетевых сообществ часто используют жаргонные варианты топонимов или просто сокращают названия — по законам живой разговорной речи. Например, Лосиный остров будет называться Лосинкой, проспект Вернадского — Вернадкой, Алтуфьевское шоссе — Алтушкой.

Неофициальные жаргонные варианты названий, конечно, затрудняют поиск, но их круг ограничен, и их можно включить в поисковые запросы и лингвистические фильтры. Гораздо сложнее ситуация с названиями улиц, построенных по стандартной модели «прилагательное + существительное»: Луговой проезд, Новослободская улица, Мясницкая улица. Пользователи социальных сетей, как и принято в разговорной речи, закономерно опускают слова «улица», «переулок» и т. п.  Если прилагательное уникально (Новомарьинская, Басманная, Электрозаводская), пропуск существительного не сильно усложняет поиск, но если в названии улицы использовано относительное прилагательное (Снежная улица, Юбилейный проспект, Школьная улица, Тихая улица), то поиск по обычной технологии не даст нужного результата.

Допустим, вместо «на улице Новгородской» в сообщении будет сказано: «На Новгородской». Если пойти по традиционному пути и связать прилагательное с существительными улица или ул., есть риск потерять важные сообщения. Если в запросе использовать только прилагательное, то фильтр поймает множество новостей, в том числе и массу ненужных. Не поможет и написание прилагательного с заглавной буквы, поскольку пользователи социальных сетей часто ею пренебрегают.

Анализ большого корпуса текстов позволил нам разработать эффективные лингвистические технологии, позволяющие решить задачу идентификации релевантного для заказчика региона и региональных топонимов, а тем самым  сделать мониторинг актуальных новостей для каждого типа источников максимально  полным и точным.

 

Катерина Баркова,

компьютерный лингвист