RT Dissertation/Thesis T1 Measurements and analysis of online social networks A1 González Sánchez, Roberto AB Online Social Networks (OSNs) have become the most used Internet applicationsattracting hundreds of millions active users every day. The large amount of valuableinformation in OSNs (not even before available) has attracted the research community todesign sophisticated techniques to collect, process, interpret and apply these data into alarge range of disciplines including Sociology, Marketing, Computer Science, etc.This thesis presents a series of contributions into this incipient area.First, we present a comprehensive framework to perform large scale measurements inOSNs. To this end, the tools and strategies followed to capture representative datasetsare described. Furthermore, we present the lessons learned during the crawling processin order to help the reader in a future measurement campaign.Second, using the previous datasets, this thesis address two fundamental aspects thatare critical in order to have a clear understanding of the Social Media ecosystem. Onethe one hand, we characterize the birth and grow of OSNs. In particular, we performa deep study for a second generation OSN such as Google+ (a OSN released by Googlein 2011) and compare its growth with other first generation OSNs such as Twitter. Onthe other hand, we characterize the information propagation in OSNs in several manners.First, we use Twitter to perform a geographical analysis of the information propagation.Furthermore, we carefully analyze the propagation information in Google+. In particular,we analyze the information propagation trees and the information propagation forests thatanalyze the propagation information of a piece of content through multiple trees. To thebest of our knowledge any previous study has addressed this issue.Finally, the last contribution of this thesis focuses on the analysis of the load receivedby an OSN system such as Twitter.The conducted research lead to the following main four findings: (i) Second GenerationOSNs are expected to grow much faster that the correspondent First Generation OSNs,however they struggle to get users actively engage in the system. This is the case of G+that is growing at a impressive rate of 350K new users registered per day. However alarge fraction (83%) of its users have never been active, and those that present activity are typically significantly less engaged in the system than users in Facebook or Twitter.(ii) The information propagates faster but following shorter paths in Twitter than in G+.This is a consequence of the way in which information is shown in each system. Secuentialbasedsystems such as Twitter force short-term conversations among their users whereasSelective-based systems such as those used in G+ or Facebook chooses which content toshow to each user based on his preferences, volume of interactions with other users, etc.This helps to prolong the lifespan of conversations in the OSN.(iii) Our analysis of thegeographical propagation of information in Twitter reveals that users tend to send tweetsfrom a sole geographical location. Furthermore, the level of locality associated to thesocial relationships varies across countries and thus for some countries like Brazil it ismore likely that the information remains local than for other countries such as Australia.(iv) Our analysis of the load of Twitter system indicates that the arrival process of tweetsfollows a model similar to a Gaussian with a noticeable day-night pattern.In short the work presented in this thesis allows advancing our knowledge of the SocialMedia ecosystem in essential directions such as the formation and growth of OSNs or thepropagation of information in these systems. The important reported findings will helpto develop new services on top of OSNs. AB Las redes sociales (OSNs por sus siglas en inglés) se han convertido en una de lasaplicaciones más usadas de Internet atrayendo cientos de millones de usuarios cada día. Lagran cantidad de información valiosa en las redes sociales (que antes no estaba disponible)ha llevado a la comunidad cientifica a diseñar sofisticadas tecnicas para recoger, procesar,interpretar y usar esos datos en diferentes disciplinas incluyendo sociología, marketing,informática, etc.Esta tesis presenta una serie de contribuciones en esta incipiente área.Primero, presentamos un completo marco que permite realizar medidas a gran escalade redes sociales. Con este propósito, el documento describe las herramientas y estrategiasseguidas para obtener un conjunto de datos representativo. Tambien, añadimos laslecciones aprendidas durante el proceso de obtención de datos. Estas lecciones puedenayudar al lector en una futura campaña de medidas sobre redes sociales.Segundo, usando el conjunto de datos obtenido con las herramientas descritas, estatesis aborda dos aspectos fundamentales que son críticos para entender el ecosistema de lasredes sociales. Por un lado, caracterizamos el nacimiento y crecimiento de redes sociales.En particular, llevamos a cabo un análisis en profundidad de una red social de segundageneración como Google+ (una red social lanzada por Google en 2011) y comparamos sucrecimiento con otras redes sociales de primera generación como Twitter. Por otro ladocaracterizamos la propagación de la información en redes sociales de diferentes maneras.Primero, usamos Twitter para llevar a cabo un analisis geográfico de la propagaciónde la información. También analizamos la propagación de la información en Google+.En particular, analizamos los árboles de propagación de información y los bosques depropagación de información que incluyen la información sobre la propagación de unamisma pieza de contenido a traves de diferentes árboles. A nuestro saber, este es elprimer estudio que aborda esta cuestión.Por último, analizamos la carga soportada por una red social como Twitter.La investigación realizada nos lleva a los siguientes 4 resultados principales: (i) Es deesperar que las redes sociales de segunda generación crezcan mucho más rápido que las correspondientes de primera generaci´on, sin embargo, estas tiene muchas dificultades paramantener los usuarios involucrados en el sistema. Este es el caso de G+ que está creciendoal impresionante ritmo de 350K nuevos usuarios registrados por dia. Sin embargo unagran fracción (83%) de ellos no ha llegado nunca a ser activos y los que presentan actividadpresentan en general una actividad menos que los usuarios de Facebook o Twitter. (ii)La información se propaga más rápido pero siguiendo caminos más cortos en Twitter queen G+. Esto es una consecuencia de la manera en la que la información es mostradaen cada sistema: sistema secuenciales como en Twitter fuerzan que la información seaconsumida al instante mientras que sistemas selectivos como el usado en G+ o Facebook,donde la información que se muestra depende las preferencias de los usuarios y el volumende interacción con otros usuarios ayuda a prolongar la vida del contenido en la red social.(iii) Nuestro analisis de la propagacion geográfica de la información en Twitter revelaque los usuarios suelen enviar tweets desde una única localización geográfica. Además, elnivel de geolocalización asociada a las relaciones sociales varía entre países y encontramosalgunos paises, como Brasil, donde es más que la información se mantengalocal que en otros como Australia. (iv) Nuestro análisis de la carga de Twitter indicaque el proceso de llegada de tweets sigue un modelo gausiano con un marcado patróndía-noche.En definitiva, el trabajo presentado en este tesis permite aumentar nuestroconocimiento sobre el ecosistema de las redes sociales en direcciones esenciales comopueden ser la formación y crecimiento de redes sociales o la propagación de informaciónen estos sistemas. Los resultados reportados ayudarán a desarrollar nuevos servicios sobrelas redes sociales. YR 2014 FD 2014-06 LK https://hdl.handle.net/10016/19833 UL https://hdl.handle.net/10016/19833 LA eng NO Mención Internacional DS e-Archivo RD 5 jul. 2024