
В статье описаны основные компоненты разработанного в ИСП РАН стека технологий для анализа пользовательских данных из социальных сетей. Особое внимание уделяется задачам, методам и приложениям анализа сетевых (социальные связи между пользователями) и текстовых (сообщения и профили пользователей) данных: определение демографических атрибутов пользователей, поиск описаний событий в корпусах сообщений, идентификация пользователей различных сетей, поиск сообществ пользователей и измерение информационного влияния между пользователями. Кроме того, рассмотрены подходы к получению исходных данных для анализа: сбор реальных данных путём обращения к веб-интерфейсам социальных сервисов и генерация случайных социальных графов. Для каждого из разработанных инструментов описывается его функциональность, варианты использования, основные шаги используемых алгоритмов и результаты экспериментальных исследований.
The paper describes the basic components of ISPRAS technology stack for social network data analysis. Particular attention is given to tasks, methods, and applications of network (social connections between users) and textual (user messages and profiles) data analysis: demographic attribute detection, event detection in messages corpora, user identity resolution, community detection, and influence measurement. Means for input data acquisition are also considered: collecting real data through web-interfaces of social services and generating random social graphs. For each of the developed tools we describe its functionality, use cases, basic steps of the underlying algorithms, and experimental results.
СОЦИАЛЬНЫЕ СЕТИ, СОЦИАЛЬНЫЕ ДАННЫЕ, ПОЛЬЗОВАТЕЛЬСКИЕ ДАННЫЕ, СОЦИАЛЬНЫЙ АНАЛИЗ, АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ, АНАЛИЗ СОДЕРЖИМОГО, ВЕБ-СЕРВИСЫ, МИКРОБЛОГИ, КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, ТЕОРИЯ ГРАФОВ, МАШИННОЕ ОБУЧЕНИЕ, РАСПРЕДЕЛЁННЫЕ АЛГОРИТМЫ И СИСТЕМЫ
СОЦИАЛЬНЫЕ СЕТИ, СОЦИАЛЬНЫЕ ДАННЫЕ, ПОЛЬЗОВАТЕЛЬСКИЕ ДАННЫЕ, СОЦИАЛЬНЫЙ АНАЛИЗ, АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ, АНАЛИЗ СОДЕРЖИМОГО, ВЕБ-СЕРВИСЫ, МИКРОБЛОГИ, КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, ТЕОРИЯ ГРАФОВ, МАШИННОЕ ОБУЧЕНИЕ, РАСПРЕДЕЛЁННЫЕ АЛГОРИТМЫ И СИСТЕМЫ
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
