Rights:
Atribución-NoComercial-SinDerivadas 3.0 España
Abstract:
Online Social Networks (OSNs) have become the most used Internet applications
attracting hundreds of millions active users every day. The large amount of valuable
information in OSNs (not even before available) has attracted the research community to
designOnline Social Networks (OSNs) have become the most used Internet applications
attracting hundreds of millions active users every day. The large amount of valuable
information in OSNs (not even before available) has attracted the research community to
design sophisticated techniques to collect, process, interpret and apply these data into a
large range of disciplines including Sociology, Marketing, Computer Science, etc.
This thesis presents a series of contributions into this incipient area.
First, we present a comprehensive framework to perform large scale measurements in
OSNs. To this end, the tools and strategies followed to capture representative datasets
are described. Furthermore, we present the lessons learned during the crawling process
in order to help the reader in a future measurement campaign.
Second, using the previous datasets, this thesis address two fundamental aspects that
are critical in order to have a clear understanding of the Social Media ecosystem. One
the one hand, we characterize the birth and grow of OSNs. In particular, we perform
a deep study for a second generation OSN such as Google+ (a OSN released by Google
in 2011) and compare its growth with other first generation OSNs such as Twitter. On
the other hand, we characterize the information propagation in OSNs in several manners.
First, we use Twitter to perform a geographical analysis of the information propagation.
Furthermore, we carefully analyze the propagation information in Google+. In particular,
we analyze the information propagation trees and the information propagation forests that
analyze the propagation information of a piece of content through multiple trees. To the
best of our knowledge any previous study has addressed this issue.
Finally, the last contribution of this thesis focuses on the analysis of the load received
by an OSN system such as Twitter.
The conducted research lead to the following main four findings: (i) Second Generation
OSNs are expected to grow much faster that the correspondent First Generation OSNs,
however they struggle to get users actively engage in the system. This is the case of G+
that is growing at a impressive rate of 350K new users registered per day. However a
large fraction (83%) of its users have never been active, and those that present activity are typically significantly less engaged in the system than users in Facebook or Twitter.
(ii) The information propagates faster but following shorter paths in Twitter than in G+.
This is a consequence of the way in which information is shown in each system. Secuentialbased
systems such as Twitter force short-term conversations among their users whereas
Selective-based systems such as those used in G+ or Facebook chooses which content to
show to each user based on his preferences, volume of interactions with other users, etc.
This helps to prolong the lifespan of conversations in the OSN.(iii) Our analysis of the
geographical propagation of information in Twitter reveals that users tend to send tweets
from a sole geographical location. Furthermore, the level of locality associated to the
social relationships varies across countries and thus for some countries like Brazil it is
more likely that the information remains local than for other countries such as Australia.
(iv) Our analysis of the load of Twitter system indicates that the arrival process of tweets
follows a model similar to a Gaussian with a noticeable day-night pattern.
In short the work presented in this thesis allows advancing our knowledge of the Social
Media ecosystem in essential directions such as the formation and growth of OSNs or the
propagation of information in these systems. The important reported findings will help
to develop new services on top of OSNs.[+][-]
Las redes sociales (OSNs por sus siglas en inglés) se han convertido en una de las
aplicaciones más usadas de Internet atrayendo cientos de millones de usuarios cada día. La
gran cantidad de información valiosa en las redes sociales (que antes no estaba dispLas redes sociales (OSNs por sus siglas en inglés) se han convertido en una de las
aplicaciones más usadas de Internet atrayendo cientos de millones de usuarios cada día. La
gran cantidad de información valiosa en las redes sociales (que antes no estaba disponible)
ha llevado a la comunidad cientifica a diseñar sofisticadas tecnicas para recoger, procesar,
interpretar y usar esos datos en diferentes disciplinas incluyendo sociología, marketing,
informática, etc.
Esta tesis presenta una serie de contribuciones en esta incipiente área.
Primero, presentamos un completo marco que permite realizar medidas a gran escala
de redes sociales. Con este propósito, el documento describe las herramientas y estrategias
seguidas para obtener un conjunto de datos representativo. Tambien, añadimos las
lecciones aprendidas durante el proceso de obtención de datos. Estas lecciones pueden
ayudar al lector en una futura campaña de medidas sobre redes sociales.
Segundo, usando el conjunto de datos obtenido con las herramientas descritas, esta
tesis aborda dos aspectos fundamentales que son críticos para entender el ecosistema de las
redes sociales. Por un lado, caracterizamos el nacimiento y crecimiento de redes sociales.
En particular, llevamos a cabo un análisis en profundidad de una red social de segunda
generación como Google+ (una red social lanzada por Google en 2011) y comparamos su
crecimiento con otras redes sociales de primera generación como Twitter. Por otro lado
caracterizamos la propagación de la información en redes sociales de diferentes maneras.
Primero, usamos Twitter para llevar a cabo un analisis geográfico de la propagación
de la información. También analizamos la propagación de la información en Google+.
En particular, analizamos los árboles de propagación de información y los bosques de
propagación de información que incluyen la información sobre la propagación de una
misma pieza de contenido a traves de diferentes árboles. A nuestro saber, este es el
primer estudio que aborda esta cuestión.
Por último, analizamos la carga soportada por una red social como Twitter.
La investigación realizada nos lleva a los siguientes 4 resultados principales: (i) Es de
esperar que las redes sociales de segunda generación crezcan mucho más rápido que las correspondientes de primera generaci´on, sin embargo, estas tiene muchas dificultades para
mantener los usuarios involucrados en el sistema. Este es el caso de G+ que está creciendo
al impresionante ritmo de 350K nuevos usuarios registrados por dia. Sin embargo una
gran fracción (83%) de ellos no ha llegado nunca a ser activos y los que presentan actividad
presentan en general una actividad menos que los usuarios de Facebook o Twitter. (ii)
La información se propaga más rápido pero siguiendo caminos más cortos en Twitter que
en G+. Esto es una consecuencia de la manera en la que la información es mostrada
en cada sistema: sistema secuenciales como en Twitter fuerzan que la información sea
consumida al instante mientras que sistemas selectivos como el usado en G+ o Facebook,
donde la información que se muestra depende las preferencias de los usuarios y el volumen
de interacción con otros usuarios ayuda a prolongar la vida del contenido en la red social.
(iii) Nuestro analisis de la propagacion geográfica de la información en Twitter revela
que los usuarios suelen enviar tweets desde una única localización geográfica. Además, el
nivel de geolocalización asociada a las relaciones sociales varía entre países y encontramos
algunos paises, como Brasil, donde es más que la información se mantenga
local que en otros como Australia. (iv) Nuestro análisis de la carga de Twitter indica
que el proceso de llegada de tweets sigue un modelo gausiano con un marcado patrón
día-noche.
En definitiva, el trabajo presentado en este tesis permite aumentar nuestro
conocimiento sobre el ecosistema de las redes sociales en direcciones esenciales como
pueden ser la formación y crecimiento de redes sociales o la propagación de información
en estos sistemas. Los resultados reportados ayudarán a desarrollar nuevos servicios sobre
las redes sociales.[+][-]