RT Dissertation/Thesis T1 Design, analysis and implementation of advanced methodologies to measure the socio-economic impact of personal data in large online services A1 González Cabañas, José AB El ecosistema web es enorme y, en general, se sustenta principalmente en un atributointangible que sostiene la mayoría de los servicios gratuitos: la explotación de la informaciónpersonal del usuario. A lo largo de los años, la preocupación por la forma en que losservicios utilizan los datos personales ha aumentado y atraído la atención de los medios decomunicación, gobiernos, reguladores y también de los usuarios. Esta recogida de informaciónpersonal es hoy en día la principal fuente de ingresos en Internet. Además, por si fuera poco,la publicidad online es la pieza que lo sustenta todo. Sin la existencia de datos personalesen comunión con la publicidad online, Internet probablemente no sería el gigante que hoyconocemos.La publicidad online es un ecosistema muy complejo en el que participan múltiples actores.Es el motor principal que genera ingresos en la red, y en pocos años ha evolucionado hastallegar a miles de millones de usuarios en todo el mundo. Mientras navegan, los usuariosgeneran datos muy valiosos sobre sí mismos que los anunciantes utilizan después para ofrecerlesproductos relevantes en los que podrían estar interesados. Se trata de un enfoque bidireccional,ya que los anunciantes pagan a intermediarios para que muestren anuncios al público que,en principio, está más interesado. Sin embargo, este comercio, intercambio y tratamientode datos personales, además de abrir nuevas vías de publicidad, exponen la privacidad delos usuarios. Esta incesante recopilación y comercialización de la información personal suelequedar tras un muro opaco, donde el usuario generalmente desconoce para qué se utilizan susdatos.Las iniciativas de privacidad y transparencia se han incrementado a lo largo de los añospara empoderar al usuario en este negocio que mueve miles de millones de dólares en ingresos.No en vano, tras varios escándalos, como el de Facebook Cambridge Analytica, las empresasy los reguladores se han unido para crear transparencia y proteger a los usuarios de las malasprácticas derivadas del uso de su información personal. Por ejemplo, el Reglamento Generalde Protección de Datos, es el ejemplo más prometedor de regulación, que afecta a todoslos estados miembros de la Unión Europea, abogando por la protección de los usuarios. Elcontenido de esta tesis tomará como referencia esta legislación.Por todo ello, el propósito de esta tesis consiste en aportar herramientas y metodologíasque pongan de manifiesto usos inapropiados de datos personales por las grandes compañíasdel ecosistema publicitario online, y cree transparencia entre los usuarios, proporcionando, a su vez, soluciones para que se protejan. Así pues, el contenido de esta tesis ofrece diseño,análisis e implementación de metodologías que miden el impacto social y económico de lainformación personal online en los servicios extensivos de Internet. Principalmente, se centraen Facebook, una de las mayores redes sociales y servicios en la web, que cuenta con más de2,8B de usuarios en todo el mundo y generó unos ingresos solo en publicidad online de másde 84 mil millones de dólares en el año 2020.En primer lugar, esta tesis presenta una solución, en forma de extensión del navegadorllamada FDVT (Data Valuation Tool for Facebook users), para proporcionar a los usuariosuna estimación personalizada y en tiempo real del dinero que están generando para Facebook.Analizando el número de anuncios e interacciones en una sesión, el usuario obtiene informaciónsobre su valor dentro de esta red social. La extensión del navegador ha tenido una importanterepercusión y adopción tanto por parte de los usuarios, instalándose más de 10k veces desdesu lanzamiento público en octubre de 2016, como de los medios de comunicación, apareciendoen más de 100 medios.En segundo lugar, el estudio e investigación de los posibles riesgos asociados al tratamientode los datos de los usuarios debe seguir también a la creación de este tipo de soluciones. En estecontexto, esta tesis descubre y desvela resultados impactantes sobre el uso de la informaciónpersonal: (i) cuantifica el número de usuarios afectados por el uso de atributos sensiblesutilizados para la publicidad en Facebook, utilizando como referencia la definición de datossensibles del Reglamento General de Protección de Datos. Esta tesis se basa en el uso deProcesamiento de Lenguaje Natural para identificar los atributos sensibles, y posteriormenteutiliza el la plataforma de creación de anuncios de Facebook para recuperar el número deusuarios asignados con esta información sensible. Dos tercios de los usuarios de Facebookse ven afectados por el uso de datos personales sensibles que se les atribuyen. Además, lalegislación parece no tener efecto en este uso de atributos sensibles por parte de Facebook, ypresenta graves riesgos para los usuarios. (ii) Se modela cuál es el número de atributos queno identifican a priori personalmente al usuario y que aun así son suficientes para identificarde forma única a un individuo sobre una base de datos de miles de millones de usuarios,y se demuestra que llegar a un solo usuario es plausible incluso sin conocer datos que loidentifiquen personalmente de ellos mismos. Los resultados demuestran que 22 intereses alazar de un usuario son suficientes para identificarlo unívocamente con un 90% de probabilidad,y 4 si tomamos los menos populares.Por último, esta tesis se ha visto afectada por el estallido de la pandemia del COVID-19, lo que ha contribuido al análisis de la evolución del mercado de la publicidad en líneacon este periodo. La investigación demuestra que el mercado de la publicidad muestra unainelasticidad casi perfecta en la oferta y que cambió su composición debido a un cambio en elcomportamiento en línea de los usuarios. También ilustra el potencial que tiene la utilizaciónde los datos de los grandes servicios en línea, dado que ya tienen una alta tasa de adopción,y presenta un protocolo para la localización de contactos que han estado potencialmente expuestos a personas que direon positivo en COVID-19, en contraste con el fracaso de lasnuevas aplicaciones de localización de contactos.En conclusión, la investigación de esta tesis muestra el impacto social y económico de lapublicidad online y de los grandes servicios online en los usuarios. La metodología utilizada ydesplegada sirve para poner de manifiesto y cuantificar los riesgos derivados de los datos personalesen los servicios en línea. Presenta la necesidad de tales herramientas y metodologíasen consonancia con la nueva legislación y los deseos de los usuarios. Siguiendo estas peticiones,en la búsqueda de transparencia y privacidad, esta tesis muestra soluciones y medidasfácilmente implementables para prevenir estos riesgos y capacitar al usuario para controlar suinformación personal. AB The web ecosystem is enormous, and overall it is sustained by an intangible attributethat mainly supports the majority of free services: the exploitation of personal information.Over the years, concerns on how services use personal data have increased and attracted theattention of media and users. This collection of personal information is the primary sourceof revenue on the Internet nowadays. Furthermore, on top of this, online advertising is thepiece that supports it all. Without the existence of personal data in communion with onlineadvertising, the Internet would probably not be the giant we know today.Online advertising is a very complex ecosystem in which multiple stakeholders take part.It is the motor that generates revenue on the web, and it has evolved in a few years to reachbillions of users worldwide. While browsing, users generate valuable data about themselvesthat advertisers later use to offer them relevant products in which users could be interested.It is a two-way approach since advertisers pay intermediates to show ads to the public that is,in principle, most interested. However, this trading, sharing, and processing of personal dataand behavior patterns, apart from opening up new advertising ways, expose users’ privacy.This incessant collection and commercialization of personal information usually fall behind anopaque wall, where the user often does not know what their data is used for.Privacy and transparency initiatives have increased over the years to empower the userin this business that moves billions of US dollars in revenue. Not surprisingly, after severalscandals, such as the Facebook Cambridge Analytica scandal, businesses and regulators havejoined forces to create transparency and protect users against the harmful practices derivedfrom the use of their personal information. For instance, the General Data Protection Regulation(GDPR), is the most promising example of a data protection regulation, affecting all themember states of the European Union (EU), advocating for protecting users. The content ofthis thesis will use this legislation as a reference.For all these reasons, the purpose of this thesis is to provide tools and methodologiesthat reveal inappropriate uses of personal data by large companies in the online advertisingecosystem and create transparency among users, providing solutions to protect themselves.Thus, the content of this thesis offers design, analysis, and implementation of methodologiesthat measure online personal information’s social and economic impact on extensive Internetservices. Mainly, it focuses on Facebook (FB), one of the largest social networks and serviceson the web, accounting with more than 2.8B Monthly Active Users (MAU) worldwide and generating only in online advertising revenue, more than $84B in 2020.First, this thesis presents a solution, in the form of a browser extension called DataValuation Tool for Facebook users (FDVT), to provide users with a personalized, real-timeestimation of the money they are generating for FB. By analyzing the number of ads andinteractions in a session, the user gets information on their value within this social network.The add-on has had significant impact and adoption both by users, being installed more than10k times since its public launch in October 2016, and media, appearing in more than 100media outlets.Second, the study and research of the potential risks associated with processing users’data should also follow the creation of these kinds of solutions. In this context, this thesisdiscovers and unveils striking results on the usage of personal information: (i) it quantifiesthe number of users affected by the usage of sensitive attributes used for advertising on FB,using as reference the definition of sensitive data from the GDPR. This thesis relies on theuse of Natural Language Processing (NLP) to identify sensitive attributes, and it later usesthe FB Ads Manager to retrieve the number of users assigned with this sensitive information.Two-thirds of FB users are affected by the use of sensitive personal data attributed to them.Moreover, the legislation seems not to affect this use of sensitive attributes from FB, andit presents severe risks to users. (ii) It models the number of non-Personal IdentifiableInformation (PII) attributes that are enough to uniquely identify an individual over a databaseof billions of users and proofs that reaching a single user is plausible even without knowingPII data of themselves. The results demonstrate that 22 interests at random from a userare enough to identify them uniquely with a 90% of probability, and 4 when taking the leastpopular ones.Finally, this thesis was affected by the outbreak of the COVID-19 pandemic what led toside contribute to the analysis of how the online advertising market evolved during this period.The research shows that the online advertising market shows an almost perfect inelasticityon supply and that it changed its composition due to a change in users’ online behavior.It also illustrates the potential of using data from large online services which already havea high adoption rate and presents a protocol for contact tracing individuals who have beenpotentially exposed to people who tested positive in COVID-19, in contrast to the failure ofnewly deployed contact tracing apps.In conclusion, the research for this thesis showcases the social and economic impact ofonline advertising and extensive online services on users. The methodology used and deployedis used to highlight and quantify the risks derived from personal data in online services. Itpresents the necessity of such tools and methodologies in line with new legislation and users’desires. Following these requests, in the search for transparency and privacy, this thesis displayseasy implementable solutions and measurements to prevent these risks and empower the userto control their personal information. YR 2021 FD 2021-09 LK https://hdl.handle.net/10016/33628 UL https://hdl.handle.net/10016/33628 LA eng NO This work was supported by the Ministerio de Educación, Cultura y Deporte, Spain, throughthe FPU Grant FPU16/05852, the Ministerio de Ciencia e Innovación, Spain, through theproject ACHILLES Grant PID2019-104207RB-I00, the H2020 EU-Funded SMOOTH projectunder Grant 786741, and the H2020 EU-Funded PIMCITY project under Grant 871370. DS e-Archivo RD 27 jul. 2024