Cuevas Rumín, RubénGuerrero López, María CarmenGonzález Sánchez, Roberto2015-01-122015-01-122014-062014-06-18https://hdl.handle.net/10016/19833Mención InternacionalOnline Social Networks (OSNs) have become the most used Internet applications attracting hundreds of millions active users every day. The large amount of valuable information in OSNs (not even before available) has attracted the research community to design sophisticated techniques to collect, process, interpret and apply these data into a large range of disciplines including Sociology, Marketing, Computer Science, etc. This thesis presents a series of contributions into this incipient area. First, we present a comprehensive framework to perform large scale measurements in OSNs. To this end, the tools and strategies followed to capture representative datasets are described. Furthermore, we present the lessons learned during the crawling process in order to help the reader in a future measurement campaign. Second, using the previous datasets, this thesis address two fundamental aspects that are critical in order to have a clear understanding of the Social Media ecosystem. One the one hand, we characterize the birth and grow of OSNs. In particular, we perform a deep study for a second generation OSN such as Google+ (a OSN released by Google in 2011) and compare its growth with other first generation OSNs such as Twitter. On the other hand, we characterize the information propagation in OSNs in several manners. First, we use Twitter to perform a geographical analysis of the information propagation. Furthermore, we carefully analyze the propagation information in Google+. In particular, we analyze the information propagation trees and the information propagation forests that analyze the propagation information of a piece of content through multiple trees. To the best of our knowledge any previous study has addressed this issue. Finally, the last contribution of this thesis focuses on the analysis of the load received by an OSN system such as Twitter. The conducted research lead to the following main four findings: (i) Second Generation OSNs are expected to grow much faster that the correspondent First Generation OSNs, however they struggle to get users actively engage in the system. This is the case of G+ that is growing at a impressive rate of 350K new users registered per day. However a large fraction (83%) of its users have never been active, and those that present activity are typically significantly less engaged in the system than users in Facebook or Twitter. (ii) The information propagates faster but following shorter paths in Twitter than in G+. This is a consequence of the way in which information is shown in each system. Secuentialbased systems such as Twitter force short-term conversations among their users whereas Selective-based systems such as those used in G+ or Facebook chooses which content to show to each user based on his preferences, volume of interactions with other users, etc. This helps to prolong the lifespan of conversations in the OSN.(iii) Our analysis of the geographical propagation of information in Twitter reveals that users tend to send tweets from a sole geographical location. Furthermore, the level of locality associated to the social relationships varies across countries and thus for some countries like Brazil it is more likely that the information remains local than for other countries such as Australia. (iv) Our analysis of the load of Twitter system indicates that the arrival process of tweets follows a model similar to a Gaussian with a noticeable day-night pattern. In short the work presented in this thesis allows advancing our knowledge of the Social Media ecosystem in essential directions such as the formation and growth of OSNs or the propagation of information in these systems. The important reported findings will help to develop new services on top of OSNs.Las redes sociales (OSNs por sus siglas en inglés) se han convertido en una de las aplicaciones más usadas de Internet atrayendo cientos de millones de usuarios cada día. La gran cantidad de información valiosa en las redes sociales (que antes no estaba disponible) ha llevado a la comunidad cientifica a diseñar sofisticadas tecnicas para recoger, procesar, interpretar y usar esos datos en diferentes disciplinas incluyendo sociología, marketing, informática, etc. Esta tesis presenta una serie de contribuciones en esta incipiente área. Primero, presentamos un completo marco que permite realizar medidas a gran escala de redes sociales. Con este propósito, el documento describe las herramientas y estrategias seguidas para obtener un conjunto de datos representativo. Tambien, añadimos las lecciones aprendidas durante el proceso de obtención de datos. Estas lecciones pueden ayudar al lector en una futura campaña de medidas sobre redes sociales. Segundo, usando el conjunto de datos obtenido con las herramientas descritas, esta tesis aborda dos aspectos fundamentales que son críticos para entender el ecosistema de las redes sociales. Por un lado, caracterizamos el nacimiento y crecimiento de redes sociales. En particular, llevamos a cabo un análisis en profundidad de una red social de segunda generación como Google+ (una red social lanzada por Google en 2011) y comparamos su crecimiento con otras redes sociales de primera generación como Twitter. Por otro lado caracterizamos la propagación de la información en redes sociales de diferentes maneras. Primero, usamos Twitter para llevar a cabo un analisis geográfico de la propagación de la información. También analizamos la propagación de la información en Google+. En particular, analizamos los árboles de propagación de información y los bosques de propagación de información que incluyen la información sobre la propagación de una misma pieza de contenido a traves de diferentes árboles. A nuestro saber, este es el primer estudio que aborda esta cuestión. Por último, analizamos la carga soportada por una red social como Twitter. La investigación realizada nos lleva a los siguientes 4 resultados principales: (i) Es de esperar que las redes sociales de segunda generación crezcan mucho más rápido que las correspondientes de primera generaci´on, sin embargo, estas tiene muchas dificultades para mantener los usuarios involucrados en el sistema. Este es el caso de G+ que está creciendo al impresionante ritmo de 350K nuevos usuarios registrados por dia. Sin embargo una gran fracción (83%) de ellos no ha llegado nunca a ser activos y los que presentan actividad presentan en general una actividad menos que los usuarios de Facebook o Twitter. (ii) La información se propaga más rápido pero siguiendo caminos más cortos en Twitter que en G+. Esto es una consecuencia de la manera en la que la información es mostrada en cada sistema: sistema secuenciales como en Twitter fuerzan que la información sea consumida al instante mientras que sistemas selectivos como el usado en G+ o Facebook, donde la información que se muestra depende las preferencias de los usuarios y el volumen de interacción con otros usuarios ayuda a prolongar la vida del contenido en la red social. (iii) Nuestro analisis de la propagacion geográfica de la información en Twitter revela que los usuarios suelen enviar tweets desde una única localización geográfica. Además, el nivel de geolocalización asociada a las relaciones sociales varía entre países y encontramos algunos paises, como Brasil, donde es más que la información se mantenga local que en otros como Australia. (iv) Nuestro análisis de la carga de Twitter indica que el proceso de llegada de tweets sigue un modelo gausiano con un marcado patrón día-noche. En definitiva, el trabajo presentado en este tesis permite aumentar nuestro conocimiento sobre el ecosistema de las redes sociales en direcciones esenciales como pueden ser la formación y crecimiento de redes sociales o la propagación de información en estos sistemas. Los resultados reportados ayudarán a desarrollar nuevos servicios sobre las redes sociales.application/pdfengAtribución-NoComercial-SinDerivadas 3.0 EspañaOnline social networksSocial network analysisMeasurements and analysis of online social networksdoctoral thesisTelecomunicacionesopen access