Информационное обеспечение для моделирования эпидемических процессов в социальных сетях



2.1 Виды и форматы контента, циркулирующего в социальных сетях

 

При рассмотрении влияния и восприимчивости контента следует учитывать не только количественную характеристику, заключающуюся в объемах передаваемой информации, а также и качественную. Для этого необходимо рассмотреть типы и виды контента, факторы, влияющие на восприимчивость контента пользователями, а также модели информационного управления - модели влияния.

Контент в социальных сетях фигурирует в следующих видах[109]:

- текст;

- видео;

- аудио;

- изображение.

При этом данные форматы можно разделить на следующие подвиды[109,110]:

· Текст: пост (любая статья или запись на интернет странице), статья, тема в обсуждениях, документ.

· Изображение: картинка, комикс, рисунок, фотография, инфографика (это графический способ подачи информации, данных и знаний, целью которого является быстро и чётко преподносить сложную информацию), мем (единица культурной информации. Мемом может считаться любая идея, символ, манера или образ действия, осознанно или неосознанно передаваемые от человека к человеку посредством речи, письма, видео, ритуалов, жестов и т. д.), GIF-файл (популярный формат анимированных графических изображений).

· Аудио: музыка, подкаст (аудио или видеофайл в стиле радио - и телепередач в Интернете (вещание в Интернете) определенной тематики и периодичности издания.), книга.

· Видео: фильм, запись с экрана, запись события, онлайн-трансляция, интервью.

Контент в социальных сетях делится на развлекательный, полезный, новостной, пользовательский, репутационный, интерактивный и коммерческий[109-111]:

1. Развлекательный: юмор, мемы, цитаты, развлекательные подборки (видео, изображения, гифки), загадки (головоломки), поздравления, факты из жизни знаменитостей, истории, притчи, рассказы, стихи, проза, подборки (альбомы) красивых и качественных фотографий, подборки музыки, истории успеха.

2. Полезный: обучающие видео, подкасты, статьи, интервью с лидерами мнений, полезная инфографика (интеллект-карты), инструкции, FAQ (вопросы-ответы), книги (электронные, аудио и т.д.), записи вебинаров, тренингов, семинаров, конференций, лекций, интенсивов, воркшопов (обучающее мероприятие, проходящее под руководством эксперта), переводы иностранных статей, научные статьи и достижения, разбор типичных ошибок, развенчание мифов.

3. К новостному относятся новости рынка (отрасли), новости компании, отчеты с мероприятий, важные бизнес-даты, вакансии, тренды рынка, интервью.

4. Пользовательский вид контента представлен следующими направлениями: тест-драйвы товара, альбомы (клиент-товар, услуги), обзоры товаров-услуг, статьи от пользователей на любые темы, гостевые посты (комментарии), видео от пользователей, видео с места события, вопросы пользователей.

5. К репутационному контенту относят отзывы (текст, фото, видео), упоминания в СМИ о бизнесе, достижения, призы, грамоты, закулисье бизнеса, как создается продукт (рассказ, видео, аудио), экспертное мнение, обзоры.

6. Интерактивный вид контента подразумевает вовлекание пользователя в какое - либо направление деятельности. Это могут быть опросы, обсуждения, чаты (переписки), советы друг другу, провокации.

7. К коммерческому виду относят фото товаров с описанием и ценами, акции, конкурсы, контакты, новинки товаров (услуг).

Стоит учитывать, что контент делится на положительный и деструктивный.

В работе[64] авторы приводят 3 типа объектов с различными целями деструкции:

· Интраперсональный объект представлен:телесными характеристиками (например, волосы, кожа и т.д.);индивидуализированными потребностями(например, в пище, сне, и т.д.) и ценностями (например, здоровый образ жизни, образование, и т.д.); характером психических явлений (например,изменение параметров когнитивных, эмоциональных состояний путем приема алкоголя, наркотических веществ).Деструктивная направленность текстов реализуется в призывах манипулировать интраперсональным объектом, изменять его свойства (например, отказываться от сна, еды, наносить шрамы, татуировки), в том числе разрушать его.

· В качестве интерперсонального объектавыступают:конкретные личности, малые социальныегруппы (например, учебные, спортивные, профессиональные группы); связи и отношения с конкретными людьми ималыми социальными группами, представленныев виде социальных ролей (например, сын, дочь,отец, мать, член коллектива).Деструктивная направленность текста обнаруживается в воплощении в его семантике негативнойоценки конкретного лица, социальной группы, связей и отношений с ними, в том числе через обесценивание характеристик, призывы к уничтожению.

· Метаперсональный объект деструкции включает в себя социальные институты, их деятельность,представителей и отношение к ней (институтыуправления, образования, здравоохранения, и т.д.);нормы социального регулирования (правовые, религиозные, политические, культурные,

и иные).Деструктивность прослеживается в призывах к уничтожению глобальных социальных объектов по политическим, религиозным, этническим и другим видам признаков. Средства реализации здесь достаточно обширны, что позволяет причислять к деструктивным текстам, заключающие в себе экстремистские призывы,направленные на возбуждение чувства ненависти и вражды.

Также, авторы в [64] выделяют следующие цели преобразования объектов и приводят следующие примеры: «деструктивная направленность суицидального акта может сопровождаться стремлением восполнить и восстановитьотношения между родственниками, переживающими потерю. Деструктивная цель текста с угрозами вадрес конкретного лица может подразумевать идеконструктивную направленность (модификация, с целью создания объекта с иными свойствами) — желание «переделать» другого, сформировать необходимоеповедение. Реконструктивная цель (направленность на восстановление объекта, егосвойств, характеристик) экстремистского текста обычно сочетается с тематикой восстановления объекта (избавление «Родины» от различных «захватчиков»), сопровождается призывами к самоотречению ради борьбы, указанием на необходимость переродится, стать сверхчеловеком.»

 

2.1.1 Особенности восприятия контента пользователями

На сегодняшний день существует множество способов привлечения внимания пользователей к контенту. Наиболее популярным для социальны сетей является SMM (Social media marketing) маркетинг - комплекс мероприятий по использованию социальных медиа в качестве каналов для продвижения компаний и решения других бизнес-задач.Несомненно, очевидным плюсом SMM продвижения является то, что благодаря возможностям социальных сетей, а также их классификации, можно точечно воздействовать на целевую аудиторию, выбирая площадки, где эта аудитория более всего представлена. Имеется в виду возможность учитывать демографические, психографические и поведенческие характеристики потребителей [112].

В качестве примера приведем исследования компании Buzzsumo, занимающейся аналитикой социальных каналов и контент – маркетингом. В 2014 году компания провела ряд исследований, в результате которых были проанализированы 100 миллионов статей за 8 месяцев. Таким образом были определены несколько принципов популяризации контента [113]:

- Длинный контент получает больше репостов и пользователь ознакамливается с ним через персональный компьютер, а короткий контент, не требующий большой концентрации внимания, – с мобильного устройства соответственно.

- Наличие текста совместно с изображением дает большее количество репостов.

- В зависимости от эмоционального содержания репосты контента распределились следующим образом: страх – 25%, смех – 17%, развлечение – 15%, гнев и печаль – 7%, злость – 6%, сочувствие – 15%, другое – 15%.

- Наиболее популярными контентами являются посты, содержащие: списки, инфографики, поучающие статьи («как сделать…»), видео.

- Контент, переданный «лидером мнения» также может оказаться самым популярным, так как люди привыкли брать информацию у проверенных источников или у пользователей с высокой репутацией.

В [112] автор приводит ошибки, при которых контент может потерять свою популярность:

· размещение избыточного количества постов;

· отсутствие взаимодействия в комментариях (обсуждениях) с подписчиками;

· элемент нумерованного списка;

· использование одного типа контента.

Рассматривая принципы формирования «вирусного» контента также необходимо учесть такой важный фактор, как количество постов. Следует учитывать, что в зависимости от выбранного типа социальной сети изменяется оптимальное количество постов, не позволяющее пользователю «устать» от данного типа контента, и при этом все еще оставаться в нем заинтересованным. Так для сетей для общения оптимальным является от 5 до 10 постов в день; для сетей обмена медиа-контентом - не менее 1 обновления в 2-3 дня; в сетях для коллективных обсуждений не менее 2х постов в день [113-115].

Также следует понимать, что вопрос об «идеальном вирусном контенте» является достаточно спорным. Создавая такой пост следует учитывать такие вещи, как содержание поста, которое должно заинтересовать публику; стиль письма; частота написания постов различного содержания на некоторую тематику и количество репостов одной и той же информации за некоторый промежуток времени; формат контента; особенности аудитории: возраст, направленности увлечений и прочее [116].

    Таким образом были рассмотрены некоторые принципы и ошибки построения для популяризации контента.

2.2 Структура данных о топологии связей социальных сетей и методики их преобразования к формату, удобному для эпидемического моделирования

 

2.2.1 Представление начальных данных для социальных сетей на основании трехместного предиката

Топологически социальные сети представляют собой множество узлов, соединенных линиями связи. Сети можно классифицировать по направленности связей между вершинами (ориентированный, неориентированный, двудольный), по весу ребра и множественности, которая характеризует временные рамки и метки вершин, а также типы объектов, представленные узлами и ссылками. Таким образом социальную сеть можно представить в виде графа G(X,A), в котором X– множество вершин (агентов) и A – множество ребер, отражающих взаимодействие агентов[117].

Отсюда, социальные сетиможно задать соответствующими данными. Формат этих данных соответствует трехместному предикату, состоящего из двух соединенных ребром вершин и его весовой характеристики:

,                           (2.1)

где i и j – номера вершин  и  в сети;  - вес дуги , связывающей  и , и направленной от i к j.

Определим вес дуги как передачу определенного объема наполнителя V и его ценности C в сети в единицу времени:

,                            (2.2)

где  относят к интенсивности обмена информацией.

Следует уточнить, что объемом V будем считать количество переданной информации (в случае социальных сетей отдельное сообщение - пост) или количество действий между двумя пользователями (шт).

Таким образом трехместный предикат представлен в следующе виде:

 

Так как трехместный предикат представляет собой некоторую выборку из сети, то следует уточнить некоторую особенность его представления:вершины могут быть соединены не только между собой, а также могут образовываться петли, то есть вершина может быть соединена сама с собой. Таким образом трехместный предикат может иметь одну и ту же вершину на первом и втором месте.

Уместно пронормировать каждое значение веса ребра к суммарному весу всех ребер сети. Таким образом мы получим удельное значение трафика, протекаемого между двумя вершинами. В результате преобразований трехместный предикат приобретет следующий вид:

Аналогичную операцию уместно провести и с весом вершины (суммарным трафиком, проходящим через нее).

 

2.2.2 Определение весов дуг для исследуемых социальных сетей

 

Далее использованы данные, полученные исследователями университета Кобленц – Ландау [118], в виде трехместного предиката, описанного выше, где на первом и втором месте указаны номер вершины (пользователя), а на третьем – количество взаимодействий между этими пользователями. Следует отметить, что полученная статистика не учитывает количество переданных сообщений в виду невозможности отслеживания личной переписки.

Исходные данные, включающие значение весовой характеристики в трехместном предикате, для каждой сети можно определить следующим образом (таблица 2.1):

 

Таблица 2.1 – Трактовка элементов матриц связности социальных сетей

Тип социальной сети Социльная сеть Физическая сущность весов дуг графа сети

Сети для

общения

Вконтакте

Количество репостов на свою страницу в единицу времени (за год) [1,2,118-120]

Google+
Facebook

Сети для  обмена медиа-контентом


SoundCloud Количество аудиозаписей добавленных на свою страницу репостом в единицу времени (за год) [118,121]
Youtube Количество видеозаписей добавленных на свою страницу репостом в единицу времени (за год) [118,122]
Flickr Количество просмотренных фотографий и видеороликов в единицу времени (за год) [31,118]

Сети для

 отзывов и обзоров

 

Rate& Goods Количество репостов обзоров товаров в единицу времени (за год) [118,123]
Foursquare

Количество комментариев в единицу времени (за год) [118,124,125]

Tourout

 

Продолжение таблицы 2.1

Сети для

коллективных обсуждений

4PDA  

Количество комментариев в единицу времени (за год)

[118,126-128]

xda-developers  
Reddit
Сети для авторских  записей Blogger Количество репостов в единицу времени (за год) [118,129]

Сети для

авторских

 записей

Tumblr Количество репостов в единицу времени (за год) [118,130]
LiveJournal Количество репостов в единицу времени (за год) [118,131]

Сети

социальных

закладок

Digg Количество закладок в единицу времени (за год) [118,132]
Slashdot Количество статей в единицу времени (за год) [118,133]
BibSonomy Количество написанных работ в соавторстве в единицу времени (за год) [118,134]

Сети по

интересам

Advogato Количество совместных проектов в единицу времени (за год) [118,135]
Last.fm Количество прослушанных музыкальных треков по совпадению в единицу времени (за год) [118,136]
Scientific Collaboration Количество совместно написанных статей в единицу времени (за год) [118,137]

 

В таблице представлена физическая сущность протекаемой через вершину информацию для используемых сетей. Эти данные представляют собой невзвешенный трафик сети, следовательно, все данные следует преобразовать к удельному трафику по методу, описанному выше.

 

2.2.3 Данные сети в виде диагональной матрицы степени вершин

           Для описания процессов моделирования распространения информации в сетинеобходимо построить матрицу степеней вершин сети (рисунок 2.1), где диагональ матрицы хранит значения степеней всех исходящих из вершины дуг. На пересечении столбца и строки матрица будет иметь 0. Таким образом диагональная матрица степени вершин будет иметь следующий вид:

 

1

2

n

1

k1

2

0

k2

n

kn

Рисунок 2.1 – Обобщенный вид диагональной матрицы степени вершин

 

    Данная матрица необходима для построения послойной модели графа сети. Далее, для построения модели диффузии контента необходимо построить матрицу смежности вершин.

 

2.2.4 Данные сети в виде матрицы смежности

    Для получения матрицы смежности необходимо преобразовать данные трехместного предиката. Для этого нам необходимо получить значения первого и второго столбца, содержащие данные о связности вершин сети. На пересечении строки и столбца поставим 0, в случае, если вершина не имеет связи с другой вершиной, соответствующих нумерации в предикате, и 1 – если связь между вершинами имеется. Диагональ в данной матрице будет содержать нули. По такому принципу изобразим на рисунке 2.2 пример матрицы смежности вершин сети:

  1 2   s s+1   n-1 n
1 0 0 1 0 1 0
2 1 0 0 0 1 0
 
s 1 0 0 1 0 0
s+1 0 1 1 0 0 0
 
n-1 1 0 1 0 0 0
n 0 0 1 1 1 0

Рисунок 2.2 – Пример преобразования трехместного предиката в матрицу смежности вершин

 

    Как мы видим из примера значения на пересечениях строк и столбцов не являются ассиметричными относительно диагональной линии. Это говорит о том, что вершины могут содержать не только одно ребро с другой вершиной, но также иметь двунаправленную связь.Данная матрица необходима для построения хода эпидемии в программном комплексе.

 

2.2.5 Данные сети в виде квадратной матрицы взвешенной центральности ее элементов

           Для репрезентативности выборки из мультиразмерной сети определим удельный вес вершин и дуг. Для этого полученные значения следует пронормировать по сумме весов всех дуг сети:

,                                            (2.3)

т.е. – по суммарной восприимчивости пользователя к переданной информации в единицу времени сети. Тогда нормированная величина, полученная в данном случае будет показывать удельный вес объема в дуге  к суммарному весу дуг контента сети:

(2.4)

Она и будет характеризовать степень ее взвешенной (по ценностному объему) центральности.Таким образом матрица взвешенной центральности ориентированной сети, элементами которой являются нормированные значения весов дуг и вершин, причем в диагонали этой матрицы расположены удельные веса вершин, а в столбцах и строках, соответственно удельные веса входящих и исходящих дуг:

  i   s   n
i
 
s
 
n

Рисунок 2.3 – Диагональная матрица взвешенной центральности элементовориентированной сети

 

Так как полученная суммарная величина сети не разделяет входящие и исходящие дуги, то есть вышеприведенная матрица отражает значения только для однонаправленной сети, то для определения взвешенной центральности вершины  можно использовать сумму входящих и исходящих суммарных весов ребер:

.                                    (2.5)

Далее полученное значение следует пронормировать по суммарному весу дуг сети. В результате получим нормированную величину, характеризующую степень центральности данной вершины:

.(2.6)

Таким образом получим квадратную матрицу взвешенной центральности элементов диагональной матрицы степени вершин сети, которая содержит пронормированные веса ребер по суммарной величине дуг сети и располагающей на диагонали степени вершин:

  i   s   n
i
 
s
 
n

 

Рисунок 2.4 – Диагональная матрица взвешенной центральности

Таким образом, данная матрица была получена для дальнейшего моделирования хода эпидемии, а также для расчета рисков моделируемой сети.

 

2.2.6 Входные данные сети в виде диагональной матрицы удельного баланса объема контента в вершинах сети

Для того, чтобы определить, является ли вершина авторитетным пользователем, т.е. имеющий больший удельный вес среди авторов определенных тематик (большее число пользователей ссылаются на данного пользователя) или вершина является центровым узлом, который ссылается на авторские страницы (пользователей) рассчитаем разность весов исходящих и входящих дуг, где коэффициент С = k/kmax, так как данные необходимо определить только по объему трафика, т.е. объему передаваемой информации в единицу времени:

.             (2.7)

Полученная удельная величина будет характеризовать роль вершины (субъекта) сети [138]:

- при >0 – это генератор контента (авторитетный пользователь);

- при 0 – это аккумулятор контента (центральный узел).

Чем больше модуль , тем в большей степени проявляется его ролевая функция. В этом и состоит практическое применение диагональной матрицы удельного баланса трафика в вершине сети.

           Таким образом имеет смысл преобразовать полученную квадратную матрицу взвешенной центральности элементов сети в диагональную матрицу удельного баланса ценностного объема контента в вершинах сети, где по диагонали будут расположены ролевые функции для каждой вершины в виде положительного значения для генератора контента сети и отрицательного для аккумулятора контента соответственно:

 

 

  i   s   n
i 0
 
s 0
 
n 0

 

Рисунок 2.5 –Диагональная матрица удельного баланса объема контента в вершинах сети.

Данная матрица необходима для дальнейшего анализа эпидемии. Соответственно, вершина с большим трафиком будет иметь наибольшую вероятность заражения и дальнейшего хода эпидемии, чем вершина с меньшим удельным трафиком.

Таким образом, были изложены основные принципы построения матриц, необходимых для дальнейшего моделирования диффузии контента в сети.

 

2.4 Вероятностные параметры процесса инфицирования пользователя    контентом

Для сбора данных из социальных сетей используется программный комплекс[50], структура которого изображена на рисунке 2.6:

Рисунок 2.6 – Блок схема программного комплекса извлечения данных

 

В программный комплекс входит «паук» и модуль синтаксического анализа. «Паук» просматривает каждую HTML – страницу в веб-форуме. Так как любая социальная сеть состоит из страниц, которые связаны друг с другом посредством гиперссылок, то «паук» может пройти по сети, собирая данные с каждой страницы. Содержимое страниц парсируется вместе с URL – адресом. Текущая страница ссылается на следующую, поэтому «паук» изучает ссылки на действующей странице, извлекает встроенные ссылки и перемещает курсор на следующую страницу. «Паук» следует данному процессу до тех пор, пока не дойдет до конца страницы. Синтаксический анализатор использует некоторый набор выражений, по которым находит определённые текстовые шаблоны. HTML файлы содержат уникальный тег, чтобы отразить определенную информацию. Парсеризвлекает ключевые поля, такие как идентичность данных, идентичность пользователя, а также текст, содержащийся в HTML-файлах.

 

2.4.1Извлечение темы

Для получения ключевых слов, выполняется кластеризация темы с использованием вероятностной тематической модели, в частности латентнго распределение Дирихле (LDA - latentDirichletallocation). Разработанная методика тематического моделирования предназначена для автоматического обнаружения структуры темы среди большого количества информации в неструктурированном тексте [71]. В соответствии с темой моделирования, в тексте определяется смесь различных тем. Тема определяется как определенный набор слов, которые часто употребляются вместе. Вероятностная модель представляет собой набор тем, где тема определяется некоторой вероятностью распределения слов. Вероятностная модель по тематикам работает, чтобы обнаружить наилучший набор слов и определить их в текстах.

Вероятностная модель по тематикам определяет простую вероятностную процедуру, с помощью которой могут быть сгенерированы документы. Для создания нового документа, пользователь выбирает распределение по темам. Затем, для каждого слова в этом документе, пользователь выбирает тему в случайном порядке в соответствии с выбранным распределением и пишет слово из этой темы. Этот процесс инвертируется с использованием статистических методов, выводя множество тем, которые были ответственны за генерацию документов.

Принятые вероятностные модели собирают в группы сообщения, в соответствии с ключевыми словами. В LDA допускается, что тематическое распределение априорно является распределением Дирихле, которое часто используется в качестве априорных распределений в байесовской статистике.

Алгоритм работает итеративным способом. Алгоритм присваивает каждое слово к временной теме, в соответствии с распределением вероятностей.

Поскольку каждое слово назначается случайным образом, то оно, при обнаружении более одного раза будет относиться в различных документах к разным темам. Тогда алгоритм берет повторяющуюся тему и присваивает ее следующим образом. Слово присваивается к теме, в которой это слово наиболее распространено и документ присваивается к теме, где слово в документе множественно присвоено. После повторения схождений, моделирование темы считается завершенным.

Для кластеризованных используется алгоритм, реализующий LDA для большого количества масштабных неструктурированных данных. В этом алгоритме должны адресовываться семантическое значение темы посредством рассмотрения в ней слов. Когда число тем установлено на малом значении, тогда слова в теме, носящие общий характер, могут быть включены в тему, несмотря на то, что они могут быть не близки семантически. В обратном случае, когда установлено высокое количество тем, то слова становятся достаточно специфичными, чтобы быть отнесенными к различным темам. Это вызывает семантическое перекрытие темы. Таким образом, варьируя количеством тем, исследуется, создаются ли темы посредством тематического моделирования собственные семантические кластеры. Пошагово устанавливается количество тем, равное 10 и наблюдается семантическая группа [50,71].

Мы определили ключевую тему как кластер, имеющий значительный объем сообщений и авторов, которые активно обсуждаются в настоящее время и состоят из значимых ключевых слов. Сгруппировав сообщения в большом количестве классов, выбираются значимые тематические кластеры с ключевыми словами, отражающими потребности пользователей [71].

 

2.4.2Модели временных рядов

В модели вывода временных рядов, количество различных авторов были получены с помощью разделения постов, входивших в тему за определенный промежуток времени. Темы классифицируются на разговорные и острообсуждаемые. Разговорные темы определяют тему долгопродолжающихся обсуждений, подтемы которых определяются авторами. Острые темы имеют высокую интенсивность обсуждения в реальном времени. Такие темы вызывают резвое возрастание репостов. В этом случае смотрятся входящие темы и определяются всплески, когда количество постов за определенный день превысило значение μ+2σμ+2σ [71,72]. Необходимо провести анализ образцов временных рядов в ключевых темах, чтобы исключить разговорные темы, также исключив их из текущих моделей, поскольку темы без эпидемических моделей не считаются заразными и не могут вызвать заражение среди пользователей. Выбираются острые темы обсуждений, которые привлекают особый интерес, таким образом являющиеся заразными. На следующем этапе правила взаимодействия, переменные наблюдения, переменная оценка, целевая функция, а также параметры, подлежащие оценке были определены в соответствии с «диффузионной моделью информации в веб-форумах» [72].

 

2.4.3Модель установки

 

В модели установки шага, данные проверяются на модели с использованием алгоритма оптимизации определения пользователем. Генетический алгоритм (GA) используется в качестве алгоритма оптимизации для оценивания параметров. Используются основные процедуры и выбраются необходимые алгоритмы для каждой из них. Во-первых, это функция пригодности, показывающая, насколько хорошо нынешняя популяция соответствует целевой функции, которая определяется посредством алгоритма линейного ранга Бекера[69].

Оценка вероятностей эпидемического процесса происходит, включая СКО и R – квдрат определенный следующим образом [69]:

где Ii – число инфицированных за время i;  – среднее значение от Ii; n – число выборок; i – момент времени;  – набор оцененных параметров.

    На основе данного программного обеспечения можно исследовать социальные сети на предмет определения вероятностей перехода состояний эпидемического процесса.

 

 


Дата добавления: 2018-04-04; просмотров: 635; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!