Análisis de Redes Sociales a gran Escala

Cristian Paolo Mejia Olivares

            
Texto completo de la Tesis    



Resumen

La mayoría de los estudios sobre la estructura de las redes sociales está basado en redes a pequeña escala [56, 61]. Recientemente, las aplicaciones de los sistemas Web proporcionan una nueva fuente de información para poder estudiar las propiedades de las redes sociales del mundo real. Sistemas como Flickr, Twitter, MySpace y Facebook, han permitido retomar la teoría de redes sociales para poder crear nuevas aplicaciones en base a este tipo de sistemas, ya que permiten modelar redes del mundo real con la gran cantidad de información que poseen. En la literatura, se pueden encontrar diferentes trabajos sobre redes sociales a pequeña escala y para redes estáticas. Sin embargo, pocos son los trabajos que estudian las propiedades de las redes sociales a gran escala. El análisis de redes sociales (ARS) proporciona los conceptos y las técnicas para el estudio de redes sociales basado en la teoría de grafos y del cálculo matemático. Nuestra investigación está dividida en tres partes principales, la primera de ellas es un estudio de los diferentes métodos de extracción de información y de las técnicas de muestreo aplicadas a los sistemas de redes sociales en línea.  Utilizando un muestreo de bola de nieve y haciendo uso de la interacción entre usuarios, se implementó un algoritmo para obtener un conjunto de datos representativo de los sistemas Flickr y Wikipedia. En la segunda parte de la tesis se estudió la forma de escalar el análisis de redes sociales a gran escala mediante la detección de comunidades, la cual se apoya en las diferentes técnias de la teoría del agrupamiento en grafos. En base al método de propagación de etiquetas [77] para la detección de comunidades disjuntas, se adaptó un algoritmo que permite detectar comunidades traslapadas en redes sociales a gran escala a partir del cálculo del coeficiente de agrupamiento de un nodo en cada comunidad. Para medir el desempeño del algoritmo se realizaron pruebas con diferentes conjuntos de datos con distintos tamaños y características. En general, los resultados experimentales demuestran que el algoritmo presenta un comportamiento estable y un buen desempeño para conjuntos de datos grandes y permite escalar el estudio de las redes sociales a gran escala por medio del traslapamiento de comunidades dentro de las redes sociales. Finalmente, presentamos un análisis de la estructura de dos diferentes tipos de redes sociales, Flickr basada en contenido y la Wikipedia basada la colaboración. En general, los resultados muestran que las redes sociales de estos sistemas presentan un modelo de crecimiento como una red libre de escala y poseen una forma del tipo mundo pequeño.


            Abstract

Most studies on the structure of social networks is based on networks small scale [56, 61]. Recently, applications of Web systems provide a new source of information to study the properties of social networks in real world. Systems such as Flickr, MySpace and Facebook, allow new applications using social networks theory, in which real-world networks can be modeled with the large amount of information they have. In literature, much work can be found on studying small-scale social networks and static networks. However, few of them analyze properties of large scale social networks. Social network analysis (SNA) concepts and techniques are generally based on graph theory and mathematical calculation. Our research is divided into three main parts; the first is a study of different methods of extracting information and sampling techniques applied to Online Social Networks. Using a snowball sampling and using the interaction between users, an algorithm was implemented to obtain a representative data set of systems Flickr andWikipedia (Between August 2008 to December 2009) were investigated. In the second part of the thesis we explore the algorithms for detecting social networking communities, and propose a community detection algorithm based on disjoint communities detection using label propagation method of reference . To measure the performance of our algorithm, data sets with different sizes and characteristics were tested. In general, the experimental results show that our algorithm has a stable behavior and a good performance for large-scale networks. Based on disjoint communities detection using label propagation method [77], we adapted an algorithm to detect overlapping communities in large-scale social networks by calculating the clustering coefficient of a node in each community. For measure the performance of the algorithm this was tested with different data sets and characteristics. In general, experimental results show that the algorithm has a stable behavior and good performance for large data sets and allows you to scale the study of large-scale social networks through the overlap of communities within social networks. Finally, we did two case studies to demonstrate our approaches described above. Flickr and Wikipedia were selected for their huge scale and popularity as social networks. The results demonstrate that these social networks present a model of growth as a scale-free network and a shape as small world.