Соціальний граф (англ.Social graph) — це граф, вузли якого представлені соціальними об'єктами, такими як профілі користувача з різними атрибутами (наприклад: ім'я, день народження, рідне місто, тощо), співтовариства, медіа-контент[1], тощо, а ребра — соціальними зв'язками між ними[2][3].
Неявний соціальний граф (англ.Implicit social graph) — це такий граф, який можна сформувати (вивести, обчислити) на основі взаємодій користувача зі своїми «друзями» та групами «друзів» в соціальній мережі. У цьому графі на відміну від звичайного соціального графа немає явної вказівки «друзів», тобто немає явних соціальних зв'язків[4].
Особливості соціального графа характеризується такими метриками, як: метрики взаємин, метрики зв'язків та сегментації. Для вирішення завдань на соціальному графі використовуються спеціальні моделі, за допомогою яких можна замінити «реальні» графи. За допомогою соціальних графів вирішують такі завдання, як: ідентифікація користувачів; соціальний пошук; генерація рекомендацій з вибору «друзів», медіа-контенту, новин, тощо; виявлення «реальних» зв'язків або збір відкритої інформації для моделювання графа. Обробка даних соціальних графів пов'язана з низкою проблем, як, наприклад, відмінності соціальних мереж та закритість соціальних даних.
Говорячи про завдання на соціальному графі, вживають термін метрики, які в числовій формі відображають характеристики соціальних об'єктів, сегментів/груп об'єктів та їх зв'язків. Ці метрики використовують при проведенні аналізу соціальних мереж.
Дані метрики подають характер взаємовідносин одного соціального об'єкта з іншими соціальними об'єктами.
Гомофілія[5] (англ.Homophily) — ступінь, в якій користувач утворює зв'язки з подібними. Подібність може бути визначене за ст́аттю, віком, соціальним станом, освітнім рівнем тощо[6].
Множинність (англ.Multiplexity) — число «множинних» зв'язків, в яких знаходяться користувачі[7]. Наприклад, два користувача, які товаришують та працюють разом, будуть мати «множинність», рівну 2[8]. «Множинність» пов'язують з «силою зв'язку».
Взаємність (англ.Mutuality/Reciprocity) — ступінь, в якій користувачі взаємодіють між собою, відповідають взаємністю на дії один одного[9].
Мережева закритість (англ.Network Closure) — ступінь, в якій друзі користувача є друзями один одному. Також її називають «мірою повноти реляційних тріад[en]». Припущення того, що користувач знаходиться в мережевій закритості, називається Транзитивність. [10]
Сусідство (англ.Propinquity[en]) — тенденція користувачів мати велику кількість зв'язків з географічно близькими користувачами[9].
Дані метрики відображають особливості зв'язків, як для окремих соціальних об'єктів, так і для графа в цілому.
Міст (англ.Bridge) — користувач, чиї слабкі зв'язки заповнюють «структурні діри», що забезпечує єдиний зв'язок між іншими користувачами або кластерами (групами користувачів). Також через нього проходитиме найкоротший маршрут[11].
Центральність — показник «важливості» або «впливу» певного користувача (кластера користувачів) всередині графа[12][13].
Густина — частка прямих зв'язків у мережі по відношенню до загального числа можливих[16][17].
Відстань (англ.Distance) — мінімальну кількість зв'язків, необхідних для встановлення наявності взаємозв'язку між двома окремими користувачами.
Структурні діри (англ.Structural holes) — відсутність зв'язків між двома частинами мережі.
Сила зв'язку (англ.Tie Strength) визначається лінійною комбінацією часу, «близькості» та «взаємності»[11]. Чим більше значення сили зв'язку, тим вона сильніше. Сильні зв'язки визначає «гомофілія», «сусідство» або «транзитивність», в той час як слабкі зв'язки визначають «мости».
Дані метрики відображають характеристики соціального графа, поділеного на сегменти, які мають відмінні риси.
Кліка (англ.Cliques) — група, в якій всі користувачі мають «прямі» зв'язки (вершини пов'язані (з'єднані) ребром) один до одного[18].
Соціальне коло (англ.Social circles) — група, в якій не обов'язкові «прямі» зв'язки між користувачами[19].
Коефіцієнт кластеризації (англ.Clustering coefficient) — ступінь ймовірності того, що два різних користувача, пов'язані з конкретним індивідуумом. Високий коефіцієнт кластеризації вказує на високу замкнутість групи, іншими словами, група може бути «клікою».
Згуртованість (англ.Cohesion) — ступінь, в якій користувачі пов'язані між собою одним, загально-з'єднаним зв'язком, утворюючи соціальну згуртованість. Структурна згуртованість — вказує на таку єдину структуру групи, що видалення невеликої кількості користувачів веде до розриву групи[18].
У цьому розділі наведені загальновідомі моделі графів, які потенційно можуть замінити «реальні» соціальний графи[20].
Функціонально-керовані моделі (англ.Feature-driven Models) націлені на відтворення статистичних характеристик графа, таких як ступовий розподіл та динамічні зміни щільності графа.
Навмисно-керовані моделі (англ.Intent-driven Models) сфокусовані на емуляцію процесу створення оригінального графа.
Випадковий обхід/випадкові блукання (Random Walk)
Найближчий сусід (Nearest Neighbor)
Структурно-керовані моделі (англ.Structure-driven Models) охоплюють статистичні дані зі структури графа, дозволяючи відповідному генератору відтворювати випадкові графи з тими ж структурними обмеженнями.
Виявлення профілів, що належать одній людині, в декількох соціальних мережах[21]. Вирішення цієї задачі дозволяє отримати більш повний соціальний граф, що може бути корисно в багатьох задачах, таких як:
Пошук соціальних об'єктів (користувачів, їх даних, їх записів, тощо.), заснований на аналізі набору зв'язків, в яких знаходяться об'єкти котрі треба знайти[22].
Важливим завданням є пошук точних алгоритмів генерації рекомендацій та пропозицій користувачам, які так само використовуються при створенні графа інтересів на основі соціального графа.
Рекомендація друзів — користувачі рідко ділять свої контакти на соціальні групи, але, тим не менш, вони неявно ділять ці контакти на кластери, через їх взаємодії в рамках соціальної мережі[23].
Застосування підходу «розвідки на основі відкритих джерел» (англ.Open source intelligence, OSINT) для виявлення істинних зв'язків між користувачами, тобто справжніх друзів, родичів тощо[27].
Захищені користувачі: через закритість соціальних даних, можна пропустити велику частину соціального графа. Різні алгоритми обходів впливають на таких користувачів по-різному,
Різні соціальні мережі: вони мають свої унікальні властивості, навіть якщо вони надають аналогічні послуги.
Для задачі ідентифікації користувачів головною проблемою є відмінності соціальних мереж. Переважно грають роль семантика зв'язків між соціальними об'єктами та соціальні графи різних топологій[29].
Основною проблемою генерації рекомендацій є проблема холодного старту — розрахунок рекомендації для нових соціальних об'єктів (користувачів, постів, медіа-контенту, тощо)[30].
Головна проблема збору даних для соціального графа полягає в закритості соціальних мереж[31].
По-перше, важко отримати соціальний граф від «провайдерів»[32] через цінність та захист законом соціальних даних.
По-друге, великою проблемою є збір мільйонів списків контактів, профілів, фотографій, відео, тощо парсер. Багато «провайдерів» соціальних мереж використовують Single Page Application або безліч динамічних сторінок, що містять Ajax та DHTML, що створює дуже багато проблем для створення гнучкого парсера.
Н. В. Богатир.Вкоріненість і за її межами: вплив мереж. — Міжнародна конференція «Вкоріненість і за її межами: пояснюють чи соціологічні теорії економічну реальність ?»Жовтень 25-28, 2012, Москва, Росія, 2012. — С. 168-169.