
Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.
Automated search and selection of texts on a specific topic in the target source to form a representative thematic text collection (text dataset) of large dimensions, being a special case of obtaining and structuring primary data, remains one of the most demanded applied tasks of natural language processing. The article presents the experience of developing a system of linguistic markers that allows automated extraction of texts related to the topic of vaccination against COVID-19 on the material of the VKontakte social network. A combination of linguistic methods with methods for collecting and processing text data allows forming the final dataset. The test list of markers forms is based on background knowledge, work with dictionaries and special linguistic services. The task was to create a list of words united by a common conceptual feature, to predict the joint occurrence of words in texts about vaccination against COVID-19, or to find specific words that mark this topic: occasionalisms, designations of specific realities. The content of the VKontakte thematic communities uploaded using the test list of markers became the source of automated and expert extraction of the main array of markers (354 units). The procedure for automated filtering of an intermediate text sample (12.8 million texts) is in detail. The technique of formation of stop-words is given. For the period from 01.01.2020 to 03.01.2023, 4.5 million relevant messages were retrieved; the validity of the markers was confirmed by an insignificant amount of noise on the scale of big data. The general principles of preparing linguistic markers for automated unloading of large text data are systematized; the strengths and weaknesses of this tool are noted; recommendations for the formation of a list of linguistic markers are suggested.
вакцинация, ПОЛНОТЕКСТОВЫЙ ПОИСК, социальные сети, АВТОМАТИЗИРОВАННЫЙ СБОР ДАННЫХ, «ВКОНТАКТЕ», COVID-19, ВАКЦИНАЦИЯ, ОТКРЫТЫЙ API, СОЦИАЛЬНЫЕ СЕТИ, ВКонтакте, социальная сеть, автоматизированный сбор данных, выгрузка данных, БОЛЬШИЕ ДАННЫЕ, текстовые коллекции, открытые API, ТЕКСТОВАЯ КОЛЛЕКЦИЯ, большие данные, полнотекстовый поиск, ЛИНГВИСТИЧЕСКИЙ МАРКЕР, ВЫГРУЗКА ДАННЫХ, лингвистические маркеры
вакцинация, ПОЛНОТЕКСТОВЫЙ ПОИСК, социальные сети, АВТОМАТИЗИРОВАННЫЙ СБОР ДАННЫХ, «ВКОНТАКТЕ», COVID-19, ВАКЦИНАЦИЯ, ОТКРЫТЫЙ API, СОЦИАЛЬНЫЕ СЕТИ, ВКонтакте, социальная сеть, автоматизированный сбор данных, выгрузка данных, БОЛЬШИЕ ДАННЫЕ, текстовые коллекции, открытые API, ТЕКСТОВАЯ КОЛЛЕКЦИЯ, большие данные, полнотекстовый поиск, ЛИНГВИСТИЧЕСКИЙ МАРКЕР, ВЫГРУЗКА ДАННЫХ, лингвистические маркеры
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
