Клики, сообщества, общины, группы, коммуны



 

Кликами (cliques) называются полносвязные подграфы некоторого графа. Изучение сообществ (communities) в сетях имеет довольно длительную историю. Оно тесно связано с задачами разбиения графов на подграфы. В последние годы разработка соответствующих методов получила сильный импульс в теории сложных сетей социальной природы[51,52].Под сообществами понимается подграфы, для которых связи между узлами внутри подграфов сильнее и многочисленнее, насыщеннее, чем между узлами различных подграфов.

В алгоритме, предложенном Гирваном и Ньюманом (M. Girvan and M.E.J. Newman) связи с максимальной важностью (betweenness centrality) удаляются один за другим. Каждое такое удаление изменяет структуру кратчайших путей в сети, а, следовательно, и важность каждой связи, и поэтому эти параметры пересчитываются после каждого удаления. На некотором шаге сеть оказывается разделенной на два кластера – два самых больших сообщества и далее процедура продолжается. В результате получается дерево, в котором сообщества малых размеров включены в более большие сообщества. Распределение по размерам сообществ, выявляемых в результате этой процедуры, в большинстве реальных сетей подчинено степенному закону [46,52].

 

Ассортативное и диссортативное смешивание

 

Термин «Ассортативное смешивание» (assortative mixing) или гомофилия возник в социологии, в частности, при изучении закономерностей формирования супружеских пар [46].

Социологические исследования показали, что сети друзей также формируются на основе общего языка, расы, возраста, уровня образования и доходов и т.п. В таких случаях говорят, что соответствующие сети обладают свойствами ассортативного смешивания. Возможно, именно это является главной причиной, что в странах и городах с более, чем одним языком и (или) этносом, можно ожидать появление стратифицированных сообществ, например, китайских районов в некоторых мегаполисах. Если же сетевые структуры формируются по антагонистическому принципу, они, по определению, обладают свойством диссортативного смешивания [46].

 

 

Сотрудничество в социальных сетях

 

Сотрудничество в процессе биологической эволюции возникло на ее ранних этапах и стало одним из ключевых факторов функционирования живой природы. Нет никакого сомнения, что наиболее развитое, интенсивное и обширное сотрудничество имеет место в человеческом обществе. Недавние исследования показали, что безмасштабные сети социальных взаимодействий в большей степени, чем другие сетевые структуры, способствуют возникновению сотрудничества [53].

 

1.2.3 Классификации социальных сетей

 

На сегодняшний день существует огромное количество различных классификаций социальных сетей.На современном этапе для понимания сущности влияния виртуальных сообществ, реализованных на базе социальных сетей, на социум и его развитие необходимо проведение дополнительных теоретических и практических исследований, связанных, прежде всего, с необходимостью осмысления и систематизации видов и типов социальных сетей. Поэтому задача проведения такой классификации социальных сетей, которая позволила бы выявить связи между различными видами социальных сетей, направления и возможности перехода от одного вида социальных сетей к другому в процессе развития является актуальной. Существующие классификации социальных сетей Интернет в основном проводятся по типам предоставляемых услуг (личное общение, деловоеобщение, геолокаци, блоггинг и т.д.), по доступности (открытые, закрытые,смешанные), по региону (мир, страна, организация) [54].

Таким образом были сформированы следующие типы социальных сетей, для проведения данной работы[55]:

1) cетидляобщения (Relationship networks);

2) cети для обмена медиа-контентом (Media sharing networks);

3) сети для отзывов и обзоров (Online reviews);

4) cети для коллективных обсуждений (Discussion forums);

5) cети для авторских записей (Social publishing platforms);

6) сети социальных закладок (Bookmarking sites);

7) cети по интересам (Interest-based networks).

Выделим четыре независимых измерения социальных отношений: дружеские - конкурентные и враждебные; равные - неравные; глубокие - поверхностные; эмоциональные и неформальные - ориентированные на задачу и формальные [56].

 К основным видам отношений относятся [56]:

· аффективное оценивание (выражение отношений дружбы, любви,

доверия);

· обмен материальными ресурсами;

· ассоциация или аффилитация (стремление быть в обществе других людей, потребность человека в создании тёплых, доверительных, эмоционально значимых отношений с другими людьми);

· поведенческое взаимодействие;

· движения между позициями и статусами (миграция, социальная и

физическая мобильность).

Анализ видов отношений позволяет разделить их на две группы: отношения, построенные на индивидуальном восприятии и отношения, основанные на наблюдении за взаимодействиями [56].

Все социальные сети Чарльз Хефлин разделяет на четыре группы[57]:

1. А-сеть. Позволяет пользователю обозначить себя в социальной сети как некую вполне реальную социальную единицу с возможностью построения устойчивой социальной группы.

2. В-сеть. Позволяет пользователюобозначить себя в социальной сети как некую вполне реальную социальную единицубезвозможности построения устойчивой социальной группы.

3. С-сеть. Позволяет пользователю сформировать новые отношения внутри А и В сетей.

4. D-сеть. Вспомогательная сеть, предоставляющая инструментарий для построения и расширения функциональных возможностей отношениймежду пользователями в сети Интернет.

К акторам относятся как собственно пользователь сервиса(индивиды), так и его позиция в сети (администратор, модератор, эксперт).Если в социальной сети преобладают акторы, выражающие позицию, то социальная сеть может быть отнесена к социоцентрическим сетям, которые, в свою очередь, могут быть неформальными, профессиональными и т.д.Наличие коалиций и кластеров в такой сети создает сеть со средним или высоким социальным контролем.При преобладании акторов отношений социальная сеть становится эгоцентрической.Такая сеть может быть отнесена к сетям со средним или низким социальным контролем [56].

           По принципам распространения информации в социальных сетях они, в соответствии с [58], могут быть разделены на широковещательные, транзакционные и групповые.

Таким образом, сетевая организация лежит в основе современного мироустройства, а социальные сети являются важнейшей его компонентой, защищенность которой является стратегическим фактором не только национальной, но и глобальной стабильности.

 

1.3 Многообразие эпидемических моделей идиффузии контента в социальных сетях

 

Эпидемия – медицинский термин, означающий массовое, прогрессирующее во времени и пространстве в пределах определенного региона распространение инфекционной болезни людей, значительно превышающее обычно регистрируемый на данной территории уровень заболеваемости [59].

В эпидемиологии используются два основных типа моделей: стохастические и детерминистические. Стохастический подход применяется для исследования эпидемий в малых или изолированных популяциях, когда особенно важную роль в распространении заболевания играют случайные колебания вероятностей заражения индивида. Детерминистические модели описывают эпидемиологический процесс на уровне всей популяции и более пригодны для больших популяций. Применение стохастических моделей для больших популяций дает такие же результаты как полученные детерминистическим подходом. Для упрощения анализа распространения инфекционного заболевания, особенности заражения и излечения индивида не учитываются. Считается, что каждый индивид в популяции может находиться только в одном из нескольких состояний [60].

 

1.3.1 Классические модели эпидемических процессов и их модификации

 

Большинство встречающихся в литературе моделей процесса развития эпидемии [61-68] представляют собой детерминированный подход. Они пригодны для моделирования в той фазе, когда число инфицированныхэлементов достигло больших значений.

К таким моделям относятся следующие:

· SI-модель (“Susceptible–Infected model”);

· SIS-модель (простаяэпидемическаямодель, или “Susceptible–Infected–Susceptiblemodel”);

· SIR-модель (“Susceptible–Infected–Removed model”);

· SEIR-модель (“Susceptible–Exposed–Infected–Removed model”);

· SAIR-модель (“Susceptible–Antidotal–Infected–Removed model”);

· PSIDR-модель (“Progressive Susceptible–Infected–Detected–Removed model”).

Простая эпидемическая модель SIR была предложена в 1927 году в работеВ.О. Кермака и А.Г. МакКендрика (KermackW.O., McKendrickA.G.) [2,3]. Данная эпидемическая модель опирается на три состояния, в которых могут пребывать особи популяции: восприимчивость к заболеванию; зараженность; получение иммунитета/умирание. Также для любого промежутка времени верно, что количество особей, присоединившихся к больным, равно количеству особей, переставших быть здоровыми. Здоровая особь перенимает болезнь при контакте с инфицированным соседом. После заболевания особь либо выздоравливает, при этом получая иммунитет к болезни, либо умирает. При этом в данной модели, как правило, рассматривается замкнутая популяция с постоянным размером, то есть нет возможности рождения новых особей, исключена смерть особи по другим причинам, а также исключено перемещение особи из места заражения. Стоит отметить, что на основании данной модели Кермаком и МакКендриком установлена теорема об эпидемиологическом пределе: если плотность населения ниже порогового предела, определенного отношением скорости излечения к скорости заражения, ни одна эпидемия не сможет начаться[63].

Классическая модель SI описана в работах [61,62]. Данная модель является упрощенной моделью SIR[63], и, основная идея состоит в том, что что количество особей, присоединившихся к зараженным, равно количеству особей, переставших быть здоровыми.

Основной особенностью модели SIS является то, что из зараженного состояния I также есть переход обратно в S[62,64]. Так, в работе [64] рассматривают сетевой компьютер, имеющий начальное состояние S, после которого произошло заражение червем и компьютер перешел в состояние I. Чтобы перейти в начальное состояние S необходимо удалить червя или поставить обновленное программное обеспечение. В этом случае сетевой компьютер может быть снова подвергнут заражению. Таким образом, процесс развития эпидемии представляется как последовательность переходов между состояниями уязвимости к заражению (Susceptible), инфицированности (Infected) и снова уязвимости к заражению (Susceptible).

Модель SEIR также является модификацией модели SIR [64]. Особенностью данной модели является состояние E, означающее латентность, то есть узел считается зараженным, но не является распространителем вируса. Через некоторое время он становится способным к заражению других узлов (переход в состояние I) и далее становится «излеченным» (переход в состояние R). Иногда данную модель обозначают как SLIR, где L – латентное состояние.

В работе [65] авторами представлена модель SAIR для заражения червями хостов. В данной модели учитывается наличие антивирусного программного обеспечения. Переходные состояния определяются следующим образом: S – восприимчивые к заражению хосты, начальное состояние; A – хосты, содержащие антивирусное устройство; I – зараженные хосты; R – состояние после удаления червя антивирусом.

Модель PSIDR была представлена исследователями кампании HP в 2002 году [64,66]. Данная модель также является модификацией SIR – модели для программного обеспечения. PSIDR имеет предварительны период, при котором червь распространяется по сети в течение некоторого промежутка времени, не будучи замеченным большинством пользователей (состояние P). После обнаружения червя (переход в состояние D – detected (обнаруженный)) осуществляется доработка антивирусного программного обеспечения, в результате чего хосты, которые не были заражены червем в дальнейшем не будут восприимчивы к нему, а зараженные будут «вылечиваться» в зависимости от скорости обновления антивирусной системы (переход в состояние R). Отличием данной модели является то, что помимо прямых переходов между состояниями P→S→I→D→R здесь есть дополнительный переход S→R.

Таким образом, модели SIS, SIR и SEIR целесообразно использовать для высокоуровневого моделирования распространения эпидемии, а модели SAIR и PSIDR — для более детального моделирования распространения вирусов в сети, наиболее приближенного к реальным условиям.

При рассмотрении эпидемических моделей следует указать модели с большим количеством состояний. Так, на основе стандартных моделей были получены модели, учитывающие врожденный иммунитет особи. Таким образом, к рассмотренным выше моделям следует добавить состояние изначального иммунитета M, при этом не меняя основные их особенности. Такими моделями являются следующие: MSIR, MSEIR, MSEIRS [67].

Также, при рассмотрении нестандартных моделей, следует учитывать то, что переходы могут быть не строго структурированы, то есть эпидемические переходы могут зависеть от каких-либо факторов. К примеру, в случае некоторых заболеваний, особи могут иметь врожденную инфекцию [68], либо имеют место смешанные переходы, в случае если болезнь переходит не только от особи к особи, а также она может передаваться иным путем [68]. В работе [68] авторы предлагают учитывать такие факторы, как возраст, переменная инфекционность, приобретенный иммунитет от вакцины и другое.

Рассмотренные особенности эпидемических моделей уместно использовать для описания процессов инфицирования социальных сетей, особенно в контексте распространения в них деструктивных контентов, чему собственно и посвящены последующие разделы настоящей работы.

 

1.3.2 Особенности определения эпидемических состояний вершин применительно к социальным сетям

        

    Все модели, о которых шла речь выше, применимы для моделирования эпидемиологических процессов в социальных сетях [1, 2, 30, 31]. Однако, определение состояний для пользователей в процессе диффузии контента требует своего уточнения.

    На основании классических моделей [60, 2–67] выделим следующие состояния вершин сети:

S – восприимчивое состояние;

E – латентное состояние;

I – инфицированное состояние;

R – неактивное и удаленное состояние;

M – иммунизированное состояние.

    В свою очередь иммунизацию следует разбить на два состояния. Если вершина вылечивается сама, то имеет место внутренняя иммунизация. Если вершина излечивается под влиянием каких-либо внешних факторов, то имеет место внешняя иммунизация. В данном случае говорят о моделях эпидемий с вакцинацией [69-72]. Обозначим виды иммунизации следующим образом:

M – иммунизированное состояние;

A– иммунизированное состояние из-за действия восстановителя.

Обобщим эти состояния на социальные сети.

Восприимчивое состояние S характеризует нейтральное состояние пользователя по отношению к контенту. В этом состоянии пользователь пребывает, если он не видел рассматриваемый деструктивный контент, либо ознакомился с ним для анализа, но остался равнодушен.

Латентное состояние E присуще пользователям, которые восприняли контент позитивно или негативно. В любом случае, в данном состоянии пользователь стал заинтересован в контенте, но не является его распространителем.

Если пользователь стал распространителем рассматриваемого контента, то он перешел в состояние I – инфицированное. Это состояние наиболее важное для рассмотрения динамики развития эпидемии.

Состояние иммунизации M предполагает, что пользователь перестал распространять контент и не собирается делать этого в будущем, то есть будем считать, что пользователь обрел иммунитет. В состояние M пользователь может перейти (не распространяя контент) из восприимчивого состояния S. Возможны следующие случаи приобретения контента пользователями:

1. Пользователь ознакомился с контентом, но он не принадлежит к кругу его интересов, либо просто ему не соответствует. В результате пользователь не будет распространять такой контент.

2. Пользователь распространял контент, но изменил свои взгляды и перестал распространять контент.

3. Пользователь был замечен администрацией сайта, и после модерации контента больше не распространяет его, при этом оставаясь активным пользователем.

В рамках социальных сетей состояние A будем рассматривать как состояние администрирования. В данном случае оно может привести, как к иммунизированному состоянию M, так и к неактивному состоянию R. Пользователь переходит всостояние A, если на сайте присутствует жесткая модерация исходящего от пользователей контента, либо пользователь замечен в распространении подозрительного контента.

Неактивное состояние R характеризуется следующими признаками.

1. Пользователь удалил страницу.

2. Пользователь удалил контент.

3. Контент перестал быть актуальным, иными словами время жизни контента также ограничено.

4. Страница пользователя была заморожена или приостановлена ее деятельность.

В рамках данной классификации можно определить основные множества вершин сети:

 – мощность множества восприимчивых вершин ;

 – мощность множества вершин, находящихся в латентной стадии ;

 – мощность множества инфицированных вершин ;

 – мощность множестванеактивных вершин ;

 – мощность множества иммунизированных вершин ;

 – мощность множества вершин выздоровевших с помощью восстановителя .

Представим описание мощности множеств для сетей коллективных обсуждений в таблице 1.1.

Таблица 1.1 – Описание множеств вершин сети

Множества узлов сети Описание узлов
Восприимчивые вершины Вершины, способные ознакомиться с контентом
Вершины, находящиеся в латентной стадии Вершины, принявшие контент, но не распространяющие его
Инфицированные вершины   Вершины, ставшие распространителями контента
Неактивные вершины Вершины, которые перестали распространять контент, или были заблокированы администратором, или их страница была заморожена или удалена
Иммунизированные вершины Вершины, переставшие распространять контент и получившие иммунитет к распространению подобного контента
Восстановленные вершины Вершины, контент которых был отредактирован или удален модератором сети

Отметим, что для различных типов сетей может иметь место различный набор рассматриваемых множеств.

1.3.3 Модель инфицирования пользователей в сетях для коллективных обсуждений

 

    Разработка частных микромоделей эпидемических процессов, протекающих в социальных сетях, требует тщательного анализа.  Во-первых, при рассмотрении типов социальных сетей, а именно сетей для коллективных обсуждений, сетей для авторских записей, сетей для отзывов и обзоров, сетей для обмена меди контентом, сетей для социальных закладок, сетей для общения, сетей по интересам [54–56], стоит отметить, что контент, проходящий по этим сетям, также различен. К тому же этот контент имеет различные форматы, содержание и объем, что в конечном итоге обуславливает его трафик. Во-вторых, все типы сетей имеют различия в структуре и наборе субъектов сети. В-третьих, для всех этих типов имеют место различные значения вероятностей переходов между состояниями [73–90].

    Из всего выше сказанного можно сделать вывод, что микромодели эпидемических процессов для каждого из типов сети будут различны.

Разработка моделей проводится на микроуровне, так как макромодель для всех типов сетей будет одной. Это объясняется одинаковым разделением на слои по степеням вершин социальной сети.

    Для начала определим состав субъектов сети, которые можно поделить на активных и пассивных (рисунок 1.1). К активным относятся:

· администраторы;

· модераторы;

· активные пользователи сети.

К пассивным субъектам можно отнести:

· неактивные пользователи;

· гости социальной сети.

Для всех типов сети присуща совокупность вышеперечисленных субъектов. Однако, заметим, что проявление в сети модераторов имеет разный характер. Для одних сетей модерация проходит перед публикацией контента, для других же модерация контента происходит после его добавления на сайт. В соответствии с таблицей 1 при разработке моделей будем учитывать тот факт, что состояния A может и не быть.

Рисунок 1.1 – Субъекты социальной сети

 

Рассмотрим сеть для коллективных обсуждений. Каждый раз при рассмотрении сети будем составлять матрицу разрешенных переходов. Зададим ее в следующем виде:

(1.1)
   

где

 

По главной диагонали матрицы (1.1) всегда будут располагаться единицы. Это обусловлено тем, что пользователь в эпидемическом процессе может остаться пребывать в состоянии, которое уже приобрел. Это может произойти из-за малых значений вероятностей моделей, периодами иммунизации и модерации, а также временем жизни вершины и рассмотрения эпидемии.

Сети коллективных обсуждений представляют собой блоги и форумы, на которых пользователи обмениваются новостями, статьями и публикации. На таких сайтах всегда присутствует модерация поступающего контента. Она осуществляется, как самими администраторами сети, так и модераторами, выбранными из числа тех, кто проявляет наибольшую активность на сайте [54]. Это говорит о присутствии множества состояния .

Пользователи ознакамливаются с контентом (переход из S в E) и предлагают для публикации на сайте или публикуют его (переход из E в I). Участники сетей коллективных обсуждений резко воспринимают негативный контент [56], поэтому пользователи опубликовавшие контент либо удаляют контент, что говорит о наличии обратной связи из I в S, либо получают запрет на публикацию [56] и переходят в неактивное состояние (R). Каждый пользователь отправившийся в неактивное состояние по решению модерации может быть снова возвращен в сеть, как пользователь. При этом он может снова попробовать опубликовать деструктивный контент, либо не делать этого, боясь снова попасть под модерацию (переходы из R в S и M соответственно). При попадании контента под модерацию (переход из I в A) пользователь сталкивается с ситуацией рассмотренной выше.

Исходя из всего сказанного, составим матрицу разрешенных переходов.

(1.2)

 

В рамках данной матрицы можно определить основные элементы инфицируемой сети:

 – мощность множества восприимчивых узлов ;

 – мощность множества узлов, находящихся в латентной стадии ;

 – мощность множества инфицированных узлов ;

 – мощность множества умерших узлов ;

 – мощность множества узлов иммунизированных узлов ;

 – мощность множества выздоровевших с помощью восстановителя узлов .

Рассмотрим переходы состояний вершин (рисунок1.2). На входе инфекции пользователю сети присваивается состояние S. Далее пользователь переходит в латентное состояние Е, в котором он может и остаться либо перейти в состояние I, т. е. стать распространителем инфекции. Переход из состояния Iподразумевает следующие состояния:

1. Пользователь будет заблокирован администратором и тогда он перейдет в состояние R.

2. Контент пользователя будет проверен модератором и перейдет в состояние A.

3. Пользователь избавится от контента и обретет иммунитет, перейдя в состояние M.

4. Пользователь перейдет в исходное состояние S без иммунитета.

 

Выход инфекции
 
Вход инфекции
S
E  
I  
RR  
M  
A  

Рисунок 1.2 - Микромодель инфицирования пользователей для сетей коллективных обсуждений

 

    После редакции модератором в состояния А, пользователь может либо вернуться к исходному состоянию S, либо обрести иммунитет и перейти в состояние M. Будем считать, что при переходе в состояние M, иммунизированные пользователи в эпидемии участвовать не будут.

    Из состояния R пользователь может также перейти в состояния S без иммунитета и в M с иммунитетом. Также, если пользователь был удален, в эпидемическом процессе он больше не рассматривается.

Зададим вероятности переходов (рисунок 1.3):

 - вероятность инфицирования восприимчивого к заражению узла;

 - вероятность перехода восприимчивого узла в латентное состояние (состояние заражения);

 - вероятность перехода узла из латентного состояния в зараженное;

 - вероятность продолжения распространения инфекции от зараженного;

 - вероятность перехода из инфицированного состояния в состояние выздоровления, но без наличия иммунитета;

 - вероятность перехода из инфицированного состояния в состояние выздоровления, с иммунитетом;

 - вероятность перехода из инфицированного состояния выздоровевшее с помощью восстановителя;

 - вероятность перехода из инфицированного состояния в неактивное состояние;

 - вероятность перехода состояния выздоровевшего с помощью восстановителяв восприимчивое состояние;

 - вероятность перехода состояния выздоровевшего с помощью восстановителя в иммунизированное состояние;

 - вероятность перехода состояния выздоровевшего с помощью восстановителя в неактивное состояние;

 - вероятность перехода из неактивного состояния в иммунизированное состояние;

 - вероятность перехода из неактивного состояния в восприимчивое состояние;

 - вероятность остаться в неактивном состоянии;

 - доля восприимчивых вершин в s – слое.

 

Для графа на рисунке 1.3справедливы следующие выражения:

,                                              (1.3)

где  – количество узлов в слое ;

 

R  
A  
PIS
PEI
PRS
PSE
E  
S
I  
PIM
PIR
 PAR
PRA
M  
PIA
PAS
PAM

Рисунок 1.3 – Вероятностная модель инфицирования пользователей в сетях коллективных обсуждений

 

;

;

;

Для графа (рисунок 1.3) можно найти передачу с входа на выход. Это и будет искомая вероятность инфицирования. Найдем ее по формуле Мезона:

(1.4)

где j – количество замкнутых контуров.

В свою очередь замкнутый контурный график представлен следующими выражениями:

,

Отсюда число вторичных источников инфекции на выходе слояs будет равно:

(1.5)

 

     

 

где - количество атакуемых (из k - слоя) вирусом вершины s - слоя.

Аналогично построим вероятности попадания во все слои диффузии:

Таким образом, построена модель распространения эпидемии в сетях коллективных обсужденийдля sслоя.

Предложенная микромодель применима для сетей, представляющих блоги и форумы, с активной модерацией контента. Изменение структурных и функциональных составляющих сети приведет к изменению самой микромодели. Таким образом модель в дальнейшем может быть модернизирована, либо рассмотрена на более узких классах сетей.

1.3.4 Сети для авторских записей и отзывов и обзоров и модели инфицирования их пользователей

 

В сетях авторских записей пользователь может создать свой сайт или страницу. Как правило, автор сам является администратором в этом случае. Главное отличие сетей авторских записей в том, что непосредственно редактировать записи пользователи не могут. Сделать это могут только авторы, что приводит к выводу о том, что модерация отсутствует (перехода в A не существует). В сетях для отзывов и обзоров каждый пользователь имеет возможность высказать свое мнение, которое может иметь любой оттенок. Иными словами, контент может быть и деструктивен, а модерация, как таковая, отсутствует. Составим матрицу разрешенных переходов.

(1.6)

 

 – мощность множества восприимчивых узлов ;

 – мощность множества узлов, находящихся в латентной стадии ;

 – мощность множества инфицированных узлов ;

 – мощность множества умерших узлов ;

 – мощность множества узлов иммунизированных узлов .

    Модель распространения эпидемии примет вид (рисунок 1.4):

Выход инфекции
Вход инфекции
I  
R RR  
M  
S
E

Рисунок 1.4 – Модель инфицирования пользователей в сетях для авторских записей и отзывов и обзоров

 

Переходы состояний представлены следующим образом. На входе инфекции пользователь переходит в состояние S. С течением времени страница пользователя может быть удалена, и тогда пользователь перейдет в состояние R. После перехода в латентное состояние E пользователь начинает передавать инфекцию из состояния I.

Если на выходе инфекция не передана, то пользователь переходит в одно из следующих состояний:

1. Пользователь удаляет контент и переходит в состояние R.

2. Пользователь переходит в восприимчивое состояние S и снова подвергается инфекции.

3. Пользователь переходит в состояние М и получает иммунитет.

После удаления контента пользователь снова может перейти в состояние Sи снова подвергнуться инфекции. Также он может потерять приобретенный иммунитет и снова перейти в состояние из MвS.

Зададим вероятности переходов (рисунок 1.5):

 - вероятность инфицирования восприимчивого к заражению узла;

 - вероятность перехода восприимчивого узла в латентное состояние (состояние заражения);

 - вероятность перехода узла из латентного состояния в зараженное;

 - вероятность продолжения распространения инфекции от зараженного;

 - вероятность перехода из инфицированного состояния в выздоровевшее, но без наличия иммунитета;

 - вероятность перехода из восприимчивого состояния в неактивное;

 - вероятность перехода из инфицированного состояния в выздоровевшее, с иммунитетом;

 - вероятность перехода из инфицированного состояния в неактивное состояние;

 - вероятность перехода из неактивного состояния в иммунизированное состояние;

 - вероятность перехода из неактивного состояния в восприимчивое состояние;

 - вероятность перехода из иммунизированного состояния в восприимчивое состояние;

 - вероятность остаться в неактивном состоянии.

 
S
E E  
I
R
M

Рисунок 1.5 - Вероятностная модель инфицирования пользователей в сетях для авторских записей и отзывов и обзоров

 

Для представленных данных определены следующие выражения:

где  – количество узлов в слое .

Общая вероятность инфицирования с входа на выход будет равна:

,   (1.7)

где замкнутый контурный график представлен следующими выражениями:

;

Тогда число вторичных источников инфекции на выходе слоя s будет равно:

,                     (1.8)

    Рассчитаем вероятности для остальных состояний в графе:

Таким образом, построена модель распространения эпидемии в сетях для авторских записей и отзывов и обзоров в слое s.

Предложенная модель позволяет обобщить распространение контента в сетях для отзывов и обзоров. Отсутствие редактирования записей позволяет сделать вывод об отсутствии модерации как таковой, что сказывается на виде микромодели. Данная микромодель может быть обобщена с другими моделями, в которых не состояния A. Такая модель может применяться при заданных вероятностях, находящихся в общем доступе Остальные вероятности можно считать, как условные.

1.3.5 Инфицирование пользователей в сетях обмена медиа контентом

        

В сетях обмена медиа контентом пользователь имеет возможность предавать другим пользователям и получать от них фото, видео и аудио информацию. Так как редактировать такой материал достаточно трудоемко, то будем полагать, что редактирование контента отсутствует. Однако, контент проверяется модератором на стадии публикации. Это означает, что инфицирование невозможно, если контент не прошел модерацию (переход из E в R). Будем считать, что контент прошел и модерация отсутствует (не состояния A). Составим матрицу разрешенных переходов.

 

(1.9)

 

где:

 – мощность множества восприимчивых узлов ;

 – мощность множества узлов, находящихся в латентной стадии ;

 – мощность множества инфицированных узлов ;

 – мощность множества умерших узлов ;

 – мощность множества узлов иммунизированных узлов .

Выход инфекции
Вход инфекции
S
E  
I  
RR  
M  

Рисунок 1.6 – Модель инфицирования пользователей в сетях обмена медиа контентом

 

Переходы будем осуществлять подобно модели распространения эпидемии сетей для авторских записей. На входе инфекции пользователь переходит в состояние S. Из состояния Sпользователь переходит в латентную стадию Е, которая обусловлена модерацией контента. При блокировании инфекции модерацией, пользователь переходит в неактивное состояние R. Иначе он попадает в инфицированное состояние I. Из инфицированного состояния I возможны следующие переходы:

1. Контент удаляется или блокируется, происходит переход в неактивное состояние R.

2. Пользователь избавляется от инфекции и переходит в восприимчивое состояние S.

3. Пользователь избавляется от инфекции и переходит в иммунизированное состояние M.

Из неактивного состояния R пользователь может обрести иммунитет и перейти в состояние M, либо перейти в восприимчивое состояние S без иммунитета.

Зададим вероятности переходов (рисунок 1.7):

 - вероятность инфицирования восприимчивого к заражению узла;

 - вероятность перехода восприимчивого узла в латентное состояние (состояние заражения);

 - вероятность перехода узла из латентного состояния в зараженное;

 - вероятность продолжения распространения инфекции от зараженного;

 - вероятность перехода из инфицированного состояния в выздоровевшее, но без наличия иммунитета;

 - вероятность перехода из латентного состояния в неактивное;

 - вероятность перехода из инфицированного состояния в выздоровевшее, с иммунитетом;

 - вероятность перехода из инфицированного состояния в неактивное состояние;

 - вероятность перехода из неактивного состояния в иммунизированное состояние;

 - вероятность перехода из неактивного состояния в восприимчивое состояние;

 - вероятность перехода из иммунизированного состояния в восприимчивое состояние;

 - вероятность остаться в неактивном состоянии;

 - вероятность остаться в иммунизированном состоянии.

S
E  
I  
R  
M  

Рисунок1.7 – Вероятностная модель инфицирования пользователей в сетяхобмена медиа контентом

 

Для представленных данных определены следующие выражения

где  – количество узлов в слое .

.

Общая вероятность инфицирования с входа на выход будет равна:

,   (1.11)

где замкнутый контурный график представлен следующими выражениями:

;

;

;

;

.

Тогда число вторичных источников инфекции на выходе слоя s будет равно:

               (1.12)

    Тогда рассчитаем вероятности для других состояний графа:

Таким образом, построена модельраспространения эпидемии в сетях обмена медиа контентом слое s.

Предложенная модель имеет место только для сетей обмена медиа контентом. Данная микромодель может быть обобщена с другими моделями, в которых не состояния A. Такая модель может применяться при заданных вероятностях, находящихся в общем доступе Остальные вероятности можно считать, как условные.

 

 

1.3.6 Сети для социальных закладок и инфицирование их пользователей

В сетях социальных закладок авторы формируют передаваемый контент, а подписчики рассылок ознакомляются с ним и оценивают его. Наряду с этим активная модерация также отсутствует (отсутствие перехода в A).Если пользователь, ознакомившийся с контентом, сам является автором, то он тоже может создать себе закладку. Однако, в большинстве случаев закладки не будут использоваться и будут переходить в неактивное состояние даже без ознакомления (переход изS в R) [55]. Из всего это вытекает модель множеств эпидемии для данного типа сети:

(1.13)

 

где:

 – мощность множества восприимчивых узлов ;

 – мощность множества узлов, находящихся в латентной стадии ;

 – мощность множества инфицированных узлов ;

 – мощность множества умерших узлов ;

 – мощность множества узлов иммунизированных узлов .

На входе инфекции (рисунок 1.8) пользователю присваивается состояние S, из которого он переходит в латентное состояние E. После латентного состояния E пользователь попадает в инфицированное состояние I, из которого возможны следующие переходы:

1. Переход в неактивное состояние R, связанный с неактивностью пользователя или его отказом от рассылки.

2.  Переход в воспримчивое состояние S.

3. Приобретение иммунитета и переход в иммунизированное состояние M.

Из неактивного состояния R пользователь может вернуться к рассылке, как с иммунитетом M, так и без него S.

Выход инфекции
Вход инфекции
S
E  
I  
R  
M  

Рисунок 1.8 – Модель инфицирования пользователей в сетях социальных закладок

 

Рассмотрим вероятности эпидемии, протекающей в данном типе сети (рисунок 1.9):

 - вероятность инфицирования восприимчивого к заражению узла;

 - вероятность перехода восприимчивого узла в латентное состояние (состояние заражения);

 - вероятность перехода узла из латентного состояния в зараженное;

 - вероятность продолжения распространения инфекции от зараженного;

 - вероятность перехода из восприимчивого состояния в неактивное;

 - вероятность перехода из инфицированного состояния в выздоровевшее, с иммунитетом;

 - вероятность перехода из инфицированного состояния в неактивное состояние;

 - вероятность перехода из неактивного состояния в иммунизированное состояние;

 - вероятность перехода из неактивного состояния в восприимчивое состояние;

 - вероятность остаться в неактивном состоянии.

S
E  
I  
R  
M  

Рисунок 1.9 - Вероятностная модель инфицирования пользователей в сетях социальных закладок

Для графа на рисунке 1.9 данных определены следующие выражения:

где  – количество узлов в слое ;

Общая вероятность инфицирования с входа на выход будет равна:

,   (1.14)

где замкнутый контурный график представлен следующими выражениями:

 

 

;

;

;

.

.

Тогда число вторичных источников инфекции на выходе слоя s будет равно:

.                        (1.15)

Рассчитаем вероятности для остальных состояний в графе:

Таким образом, построена модельраспространения эпидемии в сетях социальных закладок для слоя s.

Предложенная модель распространения контента применима для сетей социальных закладок. Она похожа на сети обмена медиа контентом, и поэтому может быть обобщена с ней, как частный случай. Такая модель может применяться при заданных вероятностях, находящихся в общем доступе Остальные вероятности можно считать, как условные.

1.3.7 Инфицирование пользователей в сетях для общения

 

Сети для общения являются самым сложным объектом для разработки модели. Функционалы сайтов этого типа сетей позволяют осуществлять практически все действия, а соответственно возможны различные переходы между состояниями. Модели эпидемии для социальных сетей для общения похоже по виду на сети для коллективных обсуждений, однако имеет ряд собственных особенностей. Основной объем сети составляют публичные страницы и паблики, в которых есть администраторы, вносящие изменения, либо полностью удаляющие поступающий контент (наличие Aи переходов с ним связанных). Функционалы сетей для общения и их структура широко освещены в [32], поэтому перейдем сразу к матрице разрешенных состояний

 

(1.16)

В рамках данной матрицы можно определить основные элементы эпидемического процесса в сети:

 – мощность множества восприимчивых узлов ;

 – мощность множества узлов, находящихся в латентной стадии ;

 – мощность множества инфицированных узлов ;

 – мощность множества умерших узлов ;

 – мощность множества узлов иммунизированных узлов ;

 – мощность множества выздоровевших с помощью восстановителя узлов .

Выход инфекции
Вход инфекции
S
E  
I  
RR  
M  
A  

Рисунок 1.10 - Модель инфицирования пользователей в сетях для общения

 

Пользователи из воспроимчивого состояния S переходят в латентное состояние E. Из латентного состояния E возможен переход в неактивное состояние R, обусловленное модерацией контента или в инфицированное состояние I, откуда (рисунок 1.10):

1. Пользователь переходит в неактивное состояние R из - за блокировки, приостановления действия ил удаления страницы.

2. Пользователь переходит в восприимчивое состояние S.

3.  Пользователь приобретает иммунитет и переходит в иммунизированное состояние M.

4. Контент пользователя редактируется модерацией и он переходит в состояние A.

После приобретения иммунитета пользователь может остаться в состоянии M или потерять иммунитет и перейти в восприимчивое состояние S. Из состояния A пользователь также может перейти в состояние M или S. Из неактивного состояния R пользователь может перейти в состояниеM или S.

Зададим вероятности переходов (рисунок 1.11):

 - вероятность инфицирования восприимчивого к заражению узла;

 - вероятность перехода восприимчивого узла в латентное состояние (состояние заражения);

 - вероятность перехода узла из латентного состояния в зараженное;

 - вероятность продолжения распространения инфекции от зараженного;

 - вероятность перехода из инфицированного состояния в выздоровевшее, но без наличия иммунитета;

 - вероятность перехода из латентного состояния в неактивное;

 - вероятность перехода из инфицированного состояния в выздоровевшее, с иммунитетом;

 - вероятность перехода из инфицированного состояния в неактивное состояние;

 - вероятность перехода из неактивного состояния в иммунизированное состояние;

 - вероятность перехода из неактивного состояния в восприимчивое состояние;

 - вероятность перехода из восприимчивого состояния в неактивное состояние;

 - вероятность перехода из иммунизированного состояния в восприимчивое состояние;

 - вероятность остаться в неактивном состоянии;

 - вероятность остаться в иммунизированном состоянии.

S
E  
I  
R  
M  
A  

Рисунок 1.11 - Вероятностная модель инфицирования пользователей в сетях для общения

 

Из рисунка 1.11 имеют место следующие выражения

 

где  – количество узлов в слое .

Общая вероятность инфицирования с входа на выход будет равна:

,   (1.17)

где замкнутый контурный график представлен следующими выражениями:

;

;                               

;

;

;             

;

.

Тогда число вторичных источников инфекции на выходе слоя s будет равно:

.                     (1.18)

Рассчитаем вероятности для остальных состояний в графе:

 

Таким образом построена модель инфицирования пользователей в сетях для общения для слоя s.

Модель позволяет обобщить распространение контента в сетях для отзывов и обзоров. Данная микромодель не обобщается с другими моделями. Такая модель может применяться при заданных вероятностях, находящихся в общем доступе  При этом требуется оценка вероятностей  с помощью экспертных оценок или программного сбора, что является нетривиальной задачей. Оставшиеся вероятности можно задать через условные.

 

1.3.8 Инфицирование пользователей в сетях по интересам

Сети по интересам в своей сути похожи как на сети обмена медиа контентом, так и на сети для авторских записей. С одной стороны, существует автор, публикующий записи, как это есть в блогах [54, 69, 70]. С другой стороны, переходы по ссылкам одобряются среди доверенных пользователей сети, иными словами имеет место модерация (наличие A). Матрица разрешенных состояний примет вид:

 

(1.19)

 

Из данной классификации можно определить основные элементы эпидемии сети:

 – мощность множества восприимчивых узлов ;

 – мощность множества узлов, находящихся в латентной стадии ;

 – мощность множества инфицированных узлов ;

 – мощность множества умерших узлов ;

 – мощность множества узлов иммунизированных узлов ;

 – мощность множества выздоровевших с помощью восстановителя узлов .

Соответственно, модель эпидемии примет вид (рисунок 1.12):

Выход инфекции
Вход инфекции
S
E  
I  
RR  
M  
A  
Рисунок 1.12 – Модель распространения эпидемии в сетях по интересам

 

На входе инфекции пользователь переходит в состояние S. Из состояния S пользователь переходит в латентную стадию Е, которая обусловлена модерацией контента. При блокировании инфекции модерацией, пользователь переходит в неактивное состояние R, иначе в инфицированное состояние I. Из инфицированного состояния I возможны следующие переходы:

1. Контент удаляется или блокируется, происходит переход в неактивное состояние R.

2. Пользователь избавляется от инфекции и переходит в восприимчивое состояние S.

3. Пользователь избавляется от инфекции и переходит в иммунизированное состояние M.

Из латентного состояния E пользователь также может перейти в состояние A после редактирования контента. Из состояния A можно перейти в состояние восприимчивости S и иммунизированное состояние M. Из неактивного состояния пользователь также может перейти в состояния S и M. После приобретения иммунитета пользователь может его потерять и перейти в состояние S.

 

Зададим вероятности переходов (рисунок 1.13):

 - вероятность инфицирования восприимчивого к заражению узла;

 - вероятность перехода восприимчивого узла в латентное состояние (состояние заражения);

 - вероятность перехода узла из латентного состояния в зараженное;

 - вероятность продолжения распространения инфекции от зараженного;

 - вероятность перехода из инфицированного состояния в выздоровевшее, но без наличия иммунитета;

 - вероятность перехода из восприимчивого состояния в неактивное;

 - вероятность перехода из инфицированного состояния в выздоровевшее, с иммунитетом;

 - вероятность перехода из инфицированного состояния в неактивное состояние;

 - вероятность перехода из неактивного состояния в иммунизированное состояние;

 - вероятность перехода из неактивного состояния в восприимчивое состояние;

 - вероятность перехода состояния выздоровевшего с помощью восстановителя в иммунизированное состояние;

 - вероятность перехода из латентного состояния в неактивное;

 - вероятность перехода из латентного состояния в состояние выздоровевшего;

 - вероятность перехода из иммунизированного состояния в восприимчивое состояние;

 - вероятность остаться в неактивном состоянии.

S
E  
I  
R  
M  
A  

Рисунок 1.13– Вероятностная модель распространения эпидемии в сетях по интересам

Для представленных данных определены следующие выражения:

где  – количество узлов в слое .

;

;

;

;

.

Общая вероятность инфицирования с входа на выход будет равна:

,                    (1.20)

где замкнутый контурный график представлен следующими выражениями:

;

;

;

;

;

.

Тогда число вторичных источников инфекции на выходе слоя s будет равно:

.                        (1.21)

Рассчитаем вероятности для остальных состояний в графе:

 

    Предлагаемая микромодель для сетей по интересам имеет вид похожий на микромодель сетей для общения. Но структуры и функционал обуславливают отличие в их переходах. Задание вероятностей имеет место, как в сетях для общения.

Таким образом построены модели по всем типам сетей.

При построении моделей учитываются вероятностные переходы в соответствии с [25-38]. Однако не все вероятности имеют место. Некоторые вероятности не имеют статистики и не находятся в широком доступе. Поэтому такие вероятности требуется получить другими способами. К таким способам можно отнести:

1. Метод экспертных оценок.

2. Задание условных вероятностей.

3. Программный сбор статистики.

4. Приведение вероятностей к одному закону распределения.

Процедура получения экспертной оценки проблемы происходит на основе мнения специалистов (экспертов) с целью последующего принятия решения (выбора). Этот процесс достаточно трудоемок, и глубоко изучен, и освещен, например, в [55, 59]. В данном дипломе этот метод не рассматривается. Программный сбор статистики описывается в главе 2, а способы задания условных вероятностей не составляют особого труда. В будущем, возможно, определение данных вероятностей даст новый толчок в понимании социальных сетей. В любом случае, типизация моделей представляет новые возможности для моделирования и более качественный подход к определению эпидемических процессов, протекающих в социальных сетях.

 

1.4 Средства мониторинга и анализа социальных сетей

 

1.4.1 Многообразие систем мониторинга и анализа

 

Основополагающими задачами информационно-аналитической поддержки пассивной и активной работы с онлайновыми социальными сетями являются мониторинг и анализ социальных сетей, а также прогнозирование и управление. Мониторинг и анализ необходимы для понимания происходящих в социальных сетях процессов. Прогнозирование используется для предсказания с определенной долей вероятности состояния социальной сети через определенный промежуток времени при определенных условиях, а управление позволяет переводить социальную сеть в требуемое состояние [91].

 Мониторинг включает получение и структурирование первичных данных. Производится сбор текстов сообщений, связей между пользователями, ссылок на внешние ресурсы. Возможности этих систем во многом определяются богатством используемых данных и режимом их обработки. Системы мониторинга, осуществляющие работу в режиме реального времени, сложнее в разработке и эксплуатации, чем комплексы, использующие ретроспективный сбор данных. Анализ подразумевает несколько этапов обработки первичных данных. В первую очередь вычисляются базовые показатели, отвечающие на простые вопросы количественного характера, например, «сколько сообщений написал пользователь?». Затем проводится выявление статистических и структурных закономерностей в полученных данных, что позволяет понять природу исследуемой сети. Например, типы распределений, к которым относятся обсуждения тех или иных тем. С точки зрения практических приложений наибольший интерес представляет выявление специфических закономерностей в узких предметных обсуждениях. Прогноз представляется возможным лишь после идентификации математической модели информационного процесса. Могут использоваться статистические модели и модели динамических процессов на графах (распространение эпидемий, каскадное поведение). Управление заключается в оказании целенаправленных воздействий на социальную сеть для перевода информационных процессов в желаемое состояние. Возможны качественные рекомендации пользователю и «жесткие» количественные оценки необходимых воздействий. Количественные рекомендации требуют формальных моделей управляемых процессов [91].

Задачи анализа, прогнозирования и управления могут быть разными, в первую очередь, в зависимости от того, кто ставит задачу, т.е. кто является конечным пользователем системы. Существуют различные типы пользователей, которым необходимо проводить анализ, прогнозирование и управление онлайновыми социальными сетями [92]:

1. Органы государственной власти и местного самоуправления.

2. Предприятия государственного и частного сектора экономики (коммерческие, научно-исследовательские организации, СМИ)

3. Общество (политические партии, отдельные физические лица)

Анализ существующего программного обеспечения показывает, что на сегодняшний день наиболее развиты системы анализа социальных сетей для коммерческих организаций. Однако, независимо от конечных пользователей, системы анализа социальных сетей можно классифицировать по различным признакам [91].

Программные комплексы анализа социальных сетей можно разделить по уровням проведения анализа [92-95]:

1. Системы, осуществляющие простой мониторинг социальных сетей.

2. Системы, осуществляющие анализ социальных сетей.

3. Системы, осуществляющие прогнозирование процессов в социальных сетях.

4. Системы, предназначенные для управления социальными сетями.

5. Системы, предназначенные для проведения научных исследований.

В системах могут быть реализованы те или иные модели социальных сетей: модели структуры сетей (модели случайных графов, модели безмасштабных сетей), модели распространения информации (марковские модели, конечные автоматы, модели заражения) и др. Зачастую на практике системы либо не основываются на каких-либо моделях, либо не предоставляют информацию об их использовании [91].

Существует несколько основных классов методов, используемых в системах анализа социальных сетей: статистические методы и методы анализа графов. Отдельно следует выделить методы семантического анализа и анализа тональности текстов.

Системы могут фокусироваться на анализе различных объектов социальной сети [92]:

 

1. сеть «в целом» (с помощью агрегированных глобальных показателей);

2. подсети и сообщества;

3. отдельно взятые пользователи;

4. информационные сообщения;

5. мнения (при помощи показателей тональности сообщения относительно некоторых информационных объектов);

6. внешние узлы – информационные ресурсы сети Интернет.

Стоит отметить, что информационным объектом может быть некоторая персона, событие, организация и т.д.

По способности анализа данных системы мониторинга и анализа социальных сетей можно разделить на три вида [92,95,96]:

1. Системы, не осуществляющие анализ данных;

2. Системы, осуществляющие ретроспективный анализ данных;

3. Системы, осуществляющие анализ данных в режиме реального времени.

Системы мониторинга и анализа социальных сетей могут собирать и анализировать информацию о классических онлайновых социальных сетях (Facebook, Вконтакте), блогах (LiveJournal), микроблогах (Twitter), сервисах обмена фотографиями и видео (YouTube, Flickr), форумах. 

 

1.4.2 Анализ представленных на рынке систем мониторинга и анализа социальных сетей

Рассмотрим массовые системы анализа социальных сетей.Конечным пользователем системы является интернет-пользователь, использующий ее для получения представления об интересующем информационном объекте (сущности, событии, персоне и т.п.). Массовыми системами являются [97-100]:

 1. Поисковые системы: поиск в Twitter- search.twitter.com; поиск в блогах - blogsearch.google.com; поиск людей в социальных сетях – people.yandex.ru.

 2. Уведомляющие системы, использующие поисковые машины для поиска документов по запросу пользователя и регулярно отсылающие наиболее релевантные результаты поиска на электронную почту пользователя: GoogleAlerts (работает поверх поисковой машины Google), Twilert (работает поверх поисковой машины Twitter).

3. Простые агрегирующие системы: «Пульс блогосферы» Яндекса, GoogleTrends.

4. Системы сбора информации по заданному множеству источников (RSS-подписка): GoogleReader.

5. Системы сбора и объединения информации из различных источников: Yahoo! Pipes.

Достоинствами массовых систем является их доступность и низкие требования к квалификации пользователя. Недостатки массовых систем заключаются в слабых возможностях анализа. Такие системы, в сущности, предназначены для получения при помощи методов информационного поиска приближенного представления об информационных процессах, протекающих в социальных сетях.

Рассмотрим основные характеристики массовой системы мониторинга и анализа социальных сетей на примере программного комплекса отечественного производства «Пульс блогосферы» Яндекса. Описание указанной системы представлено в таблице 1.2.

 

Таблица 1.2 – Описание системы «Пульс блогосферы» [99]

Вендор Компания Яндекс (Россия)
Сайт blogs.yandex.ru/pulse
Пользователи Интернет-пользователи
Уровень анализа данных Мониторинг с элементами первичного анализа

 

Продолжение таблицы 1.2

Методы анализа Базовые методы анализа текстов (поддерживается в том числе русский язык)
Объекты анализа социальных сетей Сеть в целом, информационные сообщения
Режим анализа Ретроспективный анализ
Объем обрабатываемых данных Большие (десятки и сотни миллионов информационных сообщений)
Сбор данных Данные предоставляется другими сервисами Яндекса
Охват источников данных Совокупность источников, индексируемых Яндексом: социальные сети (ВКонтакте), блоги (Живой Журнал, Твиттер), форумы и т.д.

Рассмотрим системы мониторинга и анализа социальных сетей для коммерческих организаций.Конечными пользователями данного класса систем, как правило, являются коммерческие компании. Однако, указанными системами могут пользоваться и другие организации, например, органы государственной власти.Система предназначена как для решения задач внутри самой организации (интранет), так и за ее пределами (интернет).

Задачи, которые решаются с помощью систем мониторинга и анализа социальных сетей внутри организации и за ее пределами различны. При использовании систем внутри организации подразумевается, что социальная сеть организации уже явно определена или идентифицируется каким-то образом, при этом могут решаться следующие задачи [91]:

1. комплексная оценка персонала;

2.  управление информационными потоками в социальной сети организации;

3. сокращение вертикального разрыва между сотрудниками, формирование и сплочение команд;

4.  реорганизация бизнес-процессов.

При использовании систем за пределами организации задачи значительно отличаются от указанных выше[91]:

1. исследование рынка (анализ наличия в онлайновых социальных сетях брендов и их решений, анализ мнений пользователей о брендах и решениях, определение характеристик целевой аудитории, определение ключевых пользователей и площадок, выявление негативной волны обсуждений);

2. поддержание связей с партнерами и клиентами (обратная связь);

3.  повышение информированности пользователей о компании (бренде) и предлагаемых ею решениях;

4. повышение репутации бренда и продвижение решений (размещение информационных материалов в ключевых точках сети, постоянное участие);

5. оценка результативности воздействий, оказанных на социальные сети (определение и интерпретация ключевых показателей эффективности);

6. прогнозирование исходов событий (величины продаж решений).

В целом существующие на рынке системы могут предоставлять ряд возможностей, которые следует перечислить [93, 101-103]:

1. Мониторинг упоминания брендов. Лица, принимающие решения, могут использовать такие системы для отслеживания упоминаний брендов и продуктов в онлайновых социальных сетях; отслеживание ведется при помощи заданных пользователем ключевых слов. Соответствующей функцией обладают системы Radian 6, VisibleTechnologies, Techrigy/Alterian, Buzzmetrics, Cymfony.

2. Определение рыночных рисков и возможностей. Системы включают в себя функционал уведомляющих системы и специализированных систем мониторинга. Лица, принимающие решения, могут использовать системы с данным функционалом для поиска важных обсуждений в социальных сетях, которые могут помочь определить перспективные направления развития организации (возможности) или могут стать резонансными и тем самым повлиять на развитие организации (репутационные риски).

3. Веб-аналитика. Лица, принимающие решения, могут использовать такие системы для отслеживания и анализа поведения пользователей на собственных ресурсахдля их более эффективной работы.  Примеры систем: Omniture, CoreMetrics, WebTrends, GoogleAnalytics, YahooAnalytics.

4. Поддержка работы в онлайновых социальных сетях (социально-сетевые системы управления взаимоотношениями с клиентами). При помощи таких систем пользователи могут завести учетные записи в онлайновых социальных сетях и осуществлять диалог с клиентами в режиме реального времени. Наиболее развитые системы дают возможность вводить профили клиентов с социальной составляющей (поведение пользователей, местоположение пользователей, предпочтения пользователей и т.п.), используя партнерские соглашения с ведущими социальными сетями. Например, компании Salesforce и SAP имеют договоренности с блоговой площадкой Twitter. Примеры систем, поддерживающих работу в онлайновых социальных сетях: LITHIUM, SYSOMOS, CYMFONY, CRIMSON HEXAGON, VISIBLE TECHNOLOGIES, ALTERIAN, RIGHTNOW TECHNOLOGIES, BRAND AURA.

5. Системы прогнозирования и управления социальными сетями позволяют прогнозировать действия клиентов при помощи прогностических моделей и соответственно предпринимать упреждающие шаги. Далее приведем краткие описания некоторых систем мониторинга и анализа социальных сетей для коммерческих организаций.

Рассмотрим подробнее наиболее популярные в настоящий момент системы мониторинга и анализа социальных сетей. Система Radian 6 (www.radian6.com) предназначена для отслеживания в реальном времени упоминаний брендов с учетом тональности в социальных сетях (предоставляется панель управления мониторингом) и для участия в происходящих обсуждениях (предоставляется панель управления участием). Панель управления участием позволяет реагировать на активность в социальных сетях из одного места, используя имеющиеся учетные записи в блогах, площадках Twitter и Facebook. Для ретроспективного анализа доступны данные, накопленные за последние 30 дней. Такое ограничение представляется существенным для анализа продолжительных кампаний в социальных сетях. Заметим, что система Radian 6 в большей степени фокусируется на оперативном реагировании на происходящие события, нежели на бизнес-аналитике (стратегический уровень принятия решений), поэтому управляющие воздействия могут привести лишь к кратковременному всплеску продаж.

Примечание: пользователям системы предоставляется возможность настраивать (и сохранять) профили ранжирования по следующим показателям: по количеству постов заданной темы, по количеству комментариев заданной тематики, по количеству уникальных комментаторов, по количеству входящих ссылок, по количеству голосов, по количеству ответов на тематических форумах.

 

Таблица 1.3 – Описание системы «Radian 6» [101]

Вендор SalesForce
Сайт www.radian6.com 
Методы анализа Базовые методы анализа и поиска текстов на уровне ключевых слов, анализ тональности текстов (поддерживается в том числе русский язык), визуальный анализ (инфографика)
Объекты анализа социальных сетей Сеть в целом, пользователи, информационные сообщения, мнения – анализ при помощи простых агрегированных показателей
Режим анализа Анализ в режиме реального времени, ретроспективный анализ с ограничением в 30 дней

Продолжение таблицы 1.3

Объемы обрабатываемых данных Отсутствует информация
Сбор данных В режиме реального времени
Охват источников данных Блоги, форумы, новостные медиа, сайты обмена изображениями и видео, социальные сети, такие как YouTube, GoogleVideo, Flickr, Metacafe, Revver, Vech, DailyMotion, Bebo, Grouper, BrightCove, Twitter, Facebook, Linkedin
Дополнительно - Управление рабочим процессом (совместная классификация и категоризация постов, назначение приоритетов и выполнение работ по плану) -Возможность работы в социальных сетях: интеграция с Twitter и Facebook.
Клиенты Более 50 компаний из Fortune 100 (Pepsi, Dell, Kodak и др.)

 

Программный комплекс «Radian 6» реализован на основе методов анализа и поиска текстов на уровне ключевых слов, анализа тональности текстов, а также визуального анализа. Недостатком «Radian 6» является то, что данное программное обеспечение не использует математические методы анализа данных, а основывается лишь на лингвистических и графических методах. В основе разработанного нами программного комплекса лежит дискретная вероятностная математическая модель, благодаря чему представляется возможным проводить статистический анализ социальных сетей и осуществлять прогнозирование распространения контента.   

Система мониторинга и анализа социальных сетей ALTERIANSM2.Основное решение компании SDL в области анализа социальных медиа - система Alterian SM2 в связке с дополнительными приложениями и сервисами. Система Alterian SM2 - типичная для своего класса система, которая позволяет отслеживать упоминания брендов в социальных сетях с учетом тональности (определяется положительная, отрицательная и нейтральная тональность). Кроме того, утверждается, что система позволяет локализовать места обсуждений и определять демографические характеристики пользователей социальных сетей. Основные характеристики системы Alterian SM2 приведены в таблице 1.4.

 

Таблица 1.4 – Описание системы «AlterianSM2» [104]

Вендор SDL
Сайт www.alterian.com 
Пользователи Коммерческие организации
Уровень анализа данных Мониторинг и анализ
Методы анализа Базовые методы анализа и поиска текстов на уровне ключевых слов (русский язык поддерживается), анализ тональности текстов (русский язык не поддерживается), тематический анализ, визуальный анализ (инфографика)
Объекты анализа социальных сетей Сеть в целом, пользователи, информационные сообщения, мнения – анализ при помощи простых агрегированных показателей
Режим анализа Анализ в режиме реального времени, ретроспективный анализ (5 лет)
Объемы обрабатываемых данных Более 60 миллионов постов, комментариев и твитов ежедневно
Сбор данных В режиме реального времени

 

Продолжение таблицы 1.4

Охват источников данных Блоговые площадки (Живой журнал, TypePad, Twitter, Plurk, Identi.ca), доски объвлений и форумы, вики сайты, сервисы обмена фотографиями и видео (YouTube, Flickr), социальные сети (Ning, Facebook, LinkedIn), сайты электронных объявлений (Craigslist), сайты обзоров потребителей (Epinions)
Дополнительно - Управление рабочим процессом (совместная классификация и категоризация постов, назначение приоритетов и выполнение работ по плану) -Возможность работы в социальных сетях: интеграция с Twitter и Facebook.
Клиенты MD Anderson Cancer Center, Pursuit, YouCast, Red Bricks Media идр.

 

Преимущество программного комплекса, разработанного на кафедре систем информационной безопасности, перед коммерческим продуктом компании SDL заключается в возможности прогнозирования распространения контента в социальной сети, а также определения рисков и ущерба от эпидемии в сети.

Система анализа социальных сетей BrandSpotter позиционируется как система мониторинга и управления репутацией бренда в социальных сетях: отслеживаются упоминания бренда с учетом тональности; отслеживаются наиболее значимые пользователи социальных сетей по данной тематике (значимые с точки зрения количества упоминаний, тональности упоминаний, количеству последователей и друзей). Краткое описание характеристик системы представлено в таблице 1.5.

Таблица 1.5 – Описание системы «BrandSpotter»[103]

Вендор ООО «Мониторинг социальных медиа»
Сайт http://brandspotter.ru/
Пользователи Коммерческие организации
Уровень анализа данных Мониторинг и анализ
Методы анализа Базовые методы анализа и поиска текстов на уровне ключевых слов (русский язык поддерживается), анализ тональности текстов (русский язык не поддерживается), тематический анализ, визуальный анализ (инфографика)
Объекты анализа социальных сетей Сеть в целом, пользователи, информационные сообщения, мнения – анализ при помощи простых агрегированных показателей
Режим анализа Анализ в режиме реального времени
Объемы обрабатываемых данных Отсутствует информация
Сбор данных В режиме реального времени
Охват источников данных Вконтакте, Twitter, LiveJournal
Клиенты Отсутствует информация

 

Таким образом, мы видим, что системаBrandSpotter предназначена для оценки текущей ситуации в социальных медиа и анализа данных за предыдущие периоды. При этом остается открытым вопрос прогнозирования дальнейшей ситуации, который можно решить с помощью разработанного нами программного комплекса. Предлагаемый продукт не только смоделирует процесс распространения контента в социальных сетях с дальнейшими статистическими выкладками, но и проведет риск-анализ, который компания-производитель ООО «Мониторинг социальных медиа»предлагает как отдельную услугу своей компании.

Система анализа социальных сетей «Медиалогия».Программное обеспечение отечественного производства «Медиалогия» автоматически производит мониторинг и анализ сообщений более 92 миллионов источников социальных медиа. «Медиалогия» исследует все наиболее популярные платформы, включая Twitter, Facebook, Вконтакте, LiveJournal, Мой Мир, автономные блоги, а также специализрованные форумы. Дополнительные источники подключаются по запросу. «Медиалогия» решает следующие задачи по мониторингу социальных медиа [92]:

· оперативный мониторинг блогосферы и социальных медиа по заданным объектам и темам;

· отслеживание негатива и информационных рисков в блогах;

· определение наиболее популярных блогеров и сообществ;

· выявление наиболее активных и негативно настроенных блогеров;

· распределение упоминаний по площадкам, регионам, социально-демографическим показателям;

· анализ наиболее заметных инфоповодов;

· оценка охвата аудитории в соцмедиа;

· сравнение ключевых параметров присутствия в соцмедиа с конкурентами.

Данное программное обеспечение использует базовые методы поиска и анализа текстов на уровне ключевых слов. «Медиалогия» предназначена для коммерческих организаций, правительств и учреждений обеспечения безопасности (таблица 1.6).

 

Таблица 1.6 – Описание системы «Медиалогия» [92]

Вендор ООО «Медиалогия»
Сайт www.mlg.ru
Пользователи Коммерческие организации, органы государственной власти
Уровень анализа данных Мониторинг и анализ
Методы анализа Базовые методы анализа и поиска текстов на уровне ключевых слов (русский язык поддерживается), анализ тональности текстов (русский язык не поддерживается), тематический анализ, визуальный анализ (инфографика)
Объекты анализа социальных сетей Сеть в целом, пользователи, информационные сообщения, мнения – анализ при помощи простых агрегированных показателей
Режим анализа Анализ в режиме реального времени, ретроспективный анализ
Объемы обрабатываемых данных Более 90 миллионов источников социальных медиа
Сбор данных В режиме реального времени
Охват источников данных Twitter, Facebook, Вконтакте, LiveJournal, Мой Мир, автономные блоги, специализрованные форумы, дополнительные источники
Клиенты Правительство РФ, Аэрофлот, Сбербанк и др.

Клиентская часть решения — брендированный моноблок с предустановленным программным обеспечением. Т.е. стоимость «Медиалогии» состоит из стоимости моноблока, программного обеспечения и обслуживания. За счет необходимости приобретения моноблока стоимость программного продукта резко увеличивается. Разрабатываемый нами программный комплекс реализован по модели SaaS , т.е. предоставляет заказчику доступ к программному обеспечению через Интернет, и приобретение дорогостоящего оборудования для пользователей нашего ресурса не потребуется. Следует отметить, что необходимы разработки по манипулированию социальной средой, использующие модели распространения информации в социальных сетях в зависимости от характера новости. Преимущество нашего программного комплекса заключается в возможности моделирования и прогнозирование эпидемий, определения наиболее вероятных объектов атаки в сети, что позволяет провести оценку эффективности тех или иных мер противодействия распространения эпидемии.

Выше были рассмотрены основные программные комплексы мониторинга и анализа социальных сетей, предназначенные для коммерческих целей. Они позволяют оценивать ситуацию в средствах массовой информации и социальных сетях в настоящий момент и в прошлом, но ни один из представленных программных комплексов не осуществляет прогнозирование распространения контента в будущем. Разработанное нами программное обеспечение позволяет прогнозировать распространение контента с заданным характеристиками в необходимой социальной сети, что является значительным преимуществом. 

Помимо коммерческих средств мониторинга и анализа социальных сетей существуют системы анализа, используемые в научных исследованиях. Далее рассмотрим наиболее популярные системы анализа социальных сетей, используемые в научных целях отечественными и зарубежными научно-исследовательскими центрами. 

 

1.4.3 Системы анализа социальных сетей, используемые в научных исследованиях

 

Системы данного рода реализуют некоторый набор математических методов, которые могут быть использованы для анализа социальных сетей. При этом могут использоваться методы многомерного статистического анализа и искусственного интеллекта (в том числе методы data mining, text mining, image/video mining), а также методы анализа сетевых структур. Системы, реализующие первый класс методов, широко известны (например, статистический пакет IBM SPSS Statictics или Statsoft STATISTICA), в отличие от систем, реализующих второй класс методов. Поэтому остановимся подробнее на системах анализа сетевых структур. Существует множество систем, используемых аналитиками (в основном исследователями), как для визуализации сетевых структур, так и для проведения вычислений. Это могут быть готовые продукты с пользовательским интерфейсом и набором реализованных функций, а также библиотеки вычислительных методов. Ниже кратко описаны некоторые системы, разработанные для научных исследований. Все рассмотренные системы, кроме Gephi, не имеют пользовательского интерфейса и представляют собой библиотеки вычислительных функций для анализа и визуализации графов [91].

Рассмотрим систему анализа и визуализации сетевых структур Gephi [95].Система предназначена для визуализации и базового анализа графов среднего размера (до миллиона узлов). Имеет многофункциональный пользовательский интерфейс и богатый набор способов визуализации сетей (включая визуализацию в реальном времени динамических графов). Gephi развивает объединение Gephi Consortium, включающее более десятка организаций из США и Европы. Среди спонсоров проекта – Google и Oracle. Gephi используется в научных исследованиях и образовательных программах.Архитектура системы и открытый исходный код предусматривают добавление новых функций за счет разработки плагинов. Основные характеристики системы Gephi приведены в таблице 1.7.

 

 

Таблица 1.7 – Описание системы Gephi [95]

Сайт gephi.org
Пользователи Научные, образовательные организации
Объем данных До 1 миллиона узлов и ребер
Сбор данных Отсутствует
Источники данных Отсутствуют
Режим анализа Ретроспективный анализ
Методы Визуальный анализ  Базовые статистические методы Базовые методы теории графов
Рассматриваемые объекты Структура сети (узлы, направленные и ненаправленные связи)
Условия распространения OpenSource (CDDL 1.0, GPL 3.0)
Языковая поддержка English
Разработчик GephiConsortium (более 10 организаций). США, Франция, Германия, др.
Клиенты Используется в исследовательских проектах, для визуализации данных и в образовательных программах.

 

Еще одной системой для анализа социальных сетей, используемой в научных исследованиях, является система анализа сетевых структур igraph. В отличие от Gephi, igraph – это не готовая система, а библиотека вычислительных функций. Igraph реализован на языке С, но имеет программные оболочки для Python, Ruby. Библиотека содержит большое количество методов теории графов, как классических, так и появившихся недавно, например, методы ранжирования узлов, поиск сообществ и т.д. Предназначена библиотека igraph для анализа больших сетей в исследовательских и учебных проектах. Есть примеры использования igraph для масштабных распределенных вычислений [104]. Основные характеристики igraph приведены в таблице1.8.

Таблица 1.8 – Описание системы igraph [105]

Сайт igraph.sourceforge.net    
Пользователи Научные, образовательные организации
Объем данных До нескольких миллионов узлов и ребер
Сбор данных Отсутствует
Источники данных Отсутствуют
Режим анализа Ретроспективный анализ
Методы Широкий набор методов теории графов
Рассматриваемые объекты Структура сети (узлы, направленные и ненаправленные связи)
Условия распространения OpenSource (GPL 2.0+)
Языковая поддержка English
Разработчик Gábor Csárdi (Harvard University, США), Tamás Nepusz (Eötvös University, Венгрия)
Клиенты Используется в исследовательских проектах

 

Также подробнее остановимся на системе анализа сетевых структур NetworkX. Эта система напоминает igraph, но реализована на языке Python. Поскольку этот язык программирования широко используется для научных расчетов, библиотека ориентирована на удобную интеграцию с Python-проектами. Основные характеристики системы NetworkX приведены в таблице1.9.

 

Таблица 1.9 – Описание системы NetworkX [106]

Сайт networkx.lanl.gov
Пользователи Научные, образовательные организации
Объем данных До нескольких миллионов узлов и ребер
Сбор данных Отсутствует
Источники данных Отсутствуют
Режим анализа Ретроспективный анализ
Методы Широкий набор методов теории графов
Рассматриваемые объекты Структура сети (узлы, направленные и ненаправленные связи)
Условия распространения OpenSource (BSD License)
Языковая поддержка English
Разработчик Aric Hagberg, Dan Schult, Pieter Swart идругие
Клиенты Научные организации

 

СистемаанализасетевыхструктурSNAP (StanfordNetworkAnalysis Project). Система представляет собой библиотеку вычислительных методов, разработанную для исследований Стэнфордского университета. Система реализована на языке С++, относится к тому же классу продуктов, что igraph и networkX. Система SNAP ориентирована на обработку больших массивов данных и использовалась во многих исследованиях. Помимо библиотеки, на сайте проекта SNAP доступны массивы данных о взаимодействии реальных пользователей LiveJournal, Epinion, Amazon и др. Полный список публикаций проекта находится на сайте snap.stanford.edu/papers.html. Основные характеристики системы SNAP приведены в таблице 1.10

 

 

Таблица 1.10 - Описание системы SNAP [107]

Сайт snap.stanford.edu
Пользователи Научные, образовательные организации
Объем данных До нескольких миллионов узлов и ребер
Сбор данных Отсутствует
Источники данных Отсутствуют
Режим анализа Ретроспективный анализ
Методы Широкий набор методов теории графов
Рассматриваемые объекты Структура сети (узлы, направленные и ненаправленные связи)
Условия распространения OpenSource (BSD License)
Языковая поддержка English
Разработчик Stanford University
Клиенты Используется в исследовательских проектах, в частности, Стэнфордским университетом

 

Для анализа реальных онлайновых социальных сетей (напомним, что сеть Facebook насчитывает миллиард пользователей) нужны новые системы анализа сетевых структур, основанные на технологиях Big Data [108].

Системы для визуального анализа, как Gephi, широко применяются в исследовательских проектах для визуализации результатов. Вычислительные библиотеки, как igraph, обладают богатыми возможностями интеллектуального анализа графов и применяются для научных расчетов. Их использование в качестве компонентов полноценной информационной системы возможно, но требует интеграции с технологиями анализа текстов и статистическими библиотеками [105].

Как можно видеть, представленные системы ориентированы, прежде всего, на ретроспективный анализ графов, состоящих из относительного небольшого числа вершин (до миллиона вершин). Указанные выше программные комплексы не учитывают такую специфику социальных сетей, как репостинг, что значительно искажает результаты моделирования. Помимо этого, в разработанном нами программном комплексе реализована возможность прогнозирования распространения противоборствующих контентов, что имеет существенное практическое применение [108]. 

 


Дата добавления: 2018-04-04; просмотров: 464; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!