RT Dissertation/Thesis T1 A critique of android malware classification systems A1 Rashed, Mohammed Ahmed Fahim AB Dado que Android lidera el mercado global de los sistemas operativos de móviles ytambién los de malware (software malicioso) de móviles, la automatización de los procesosde detección de malware se ha convertido en una necesidad. Del mismo modo, laclasificación de familias de malware requiere también de un procesado automático debidoa la gran cantidad de muestras de malware que se detectan diariamente. A pesar de ello,el estudio de la clasificación de familias de malware en Android no ha recibido suficienteatención por parte de la comunidad científica. En esta tesis, nuestro objetivo es abordardistintos problemas relacionados con el área de clasificación de familias de malware enAndroid. Primero, realizamos un análisis global del diseño de sistemas de clasificaciónde familias de malware en Android. Para ello se define claramente las Aplicaciones PotencialmenteDañinas (PHA), Aplicaciones Potencialmente No-Deseadas (PUA) y las distintasformas de malware, y comparamos el concepto de familia de malware al conceptode comportamiento de malware en el ecosistema de Android. También estudiamos loscambios en la política de publicación de aplicaciones de Google a lo largo de los añosy su impacto en estas definiciones. Además, estudiamos los fenómenos de PHA y PUAtanto en el mercado oficial desde el punto de vista de Google como fuera de él desde lospuntos de vista de ambos, Google y la industria de Antivirus (AV) entre 2014 y 2018.Complementamos nuestro estudio con un análisis global sobre como deberían ser realmentelos sistemas de clasificación de familias de malware de Android. En esta tarea,examinamos cada componente de la arquitectura de análisis, describimos los factores queles afectan y las limitaciones que pueden introducir en el diseño del sistema. Para entendercómo se usa cada componente, estudiamos la literatura para identificar los sistemas declasificación existentes y discutimos las posibles limitaciones y los métodos para mejorarestos sistemas o cualquier sistema con objetivos similares. A continuación estudiamos elproblema del etiquetado de malware tanto en el ámbito académico como en la industria.Comenzamos con un análisis de las publicaciones (81) que utilizan etiquetas de malwareen los mejores congresos de seguridad informática (2011-2020) y hacemos lo mismo conlos informes (24) de la industria (2012-2020). Esto nos permite saber cuáles áreas de invectigacióndependen de los sistemas de clasificación de familias para lograr su objetivo.Con objeto de analizar la calidad de este proceso, analizamos una dataset de etiquetasde 2,5 milliones de aplicaciones e identificamos las inconsistencias de etiquetado entredistintos programas AV. Este análisis nos permite explorar coincidencias y divergenciasentre dichos programas en cuanto a la familia de cada muestra. La falta de consenso es unfactor clave en la introducción de ruido a los sistemas de clasificación que dependen deherramientas de unificación de etiquetas que usan voto mayoritario. Basándonos en nuestrosresultados, recomendamos distintas acciones en relación con el diseño de conjuntosde muestras que ayuden en la reducción de ruido y sesgos. Finalmente, comparamos losestudios llevados a cabo en esta tesis con trabajos recientes en el mismo área. AB With Android being the market leader of mobile operating systems, as well as mobile malware, automating the pipeline of malware detection became a necessity. In a similar fashion, malware family classification requires automation due to the large amount of malware samples that are detected on a daily basis. However, malware family classification in Android is a less explored area by the scientific community. The key goal of this dissertation is to address several concerns about the Android malware family classification problem. We first carry out a comprehensive analysis of the design of Android malware family classification systems. To do so, we focus on clearly defining Potentially Harmful Apps (PHA), Potentially Unwanted Apps (PUA) and malware forms in addition to comparing the concept of malware family to that of malware behavior in the Android ecosystem. We also study Google’s policy changes over the years and how they impact these definitions. Besides, we study the PHA and PUA phenomena from the perspective of Google inside the official store (Play Store) as well as both Google’s and the AntiVirus (AV) industry’s view of these phenomena in the wild between 2014 and 2018. Our study is complemented with an overall view of how malware family classification systems in the Android context shall look like. We thoroughly look at each of the components and discuss the factors that affect it and the limitations that these factors might introduce in the system design. To understand how each component is applied and used, we survey published works and analyze existing classification systems. We discuss the possible limitations and means of improvement for these systems or any would-be system that is based on them. We subsequently investigate the problem of malware labeling in both academia and industry. We look into research papers from top computer security conferences between 2011 and 2020 (81 papers) and do the same with regards to industry reports between 2012 and 2020 (28 reports). Additionally, we study how each of these two relies on family classification systems to reach its objectives. Furthermore, we analyze the labels of a dataset of 2.5 million app hashes and identify the labeling inconsistencies between different AV Engines. This analysis helps demonstrate the extremely limited agreement between those engines. The lack of consensus is an important factor in introducing noise into classification systems that rely on label unification tools that use majority voting. Based on these findings, we recommend a series of actions with regards to dataset design as a means to reduce biases and noise in the set of samples. Finally, we compare the studies carried out in this thesis to recent work in the same area. YR 2023 FD 2023-08-14 LK https://hdl.handle.net/10016/35054 UL https://hdl.handle.net/10016/35054 LA eng NO Mención Internacional en el título de doctor DS e-Archivo RD 27 jul. 2024