RT Dissertation/Thesis T1 Latent representation for the characterisation of mental diseases A1 Sevilla Salcedo, Carlos AB Machine learning (ML) techniques are becoming crucial in the field of health and, in particular,in the analysis of mental diseases. These are usually studied with neuroimaging, which ischaracterised by a large number of input variables compared to the number of samples available.The main objective of this PhD thesis is to propose different ML techniques to analyse mentaldiseases from neuroimaging data including different extensions of these models in order to adaptthem to the neuroscience scenario. In particular, this thesis focuses on using brainimaging latentrepresentations, since they allow us to endow the problem with a reduced low dimensionalrepresentation while obtaining a better insight on the internal relations between the disease andthe available data. This way, the main objective of this PhD thesis is to provide interpretableresults that are competent with the state-of-the-art in the analysis of mental diseases.This thesis starts proposing a model based on classic latent representation formulations,which relies on a bagging process to obtain the relevance of each brainimaging voxel, RegularisedBagged Canonical Correlation Analysis (RB-CCA). The learnt relevance is combined with astatistical test to obtain a selection of features. What’s more, the proposal obtains a class-wiseselection which, in turn, further improves the analysis of the effect of each brain area on thestages of the mental disease. In addition, RB-CCA uses the relevance measure to guide thefeature extraction process by using it to penalise the least informative voxels for obtaining thelow-dimensional representation. Results obtained on two databases for the characterisation ofAlzheimer’s disease and Attention Deficit Hyperactivity Disorder show that the model is able toperform as well as or better than the baselines while providing interpretable solutions.Subsequently, this thesis continues with a second model that uses Bayesian approximationsto obtain a latent representation. Specifically, this model focuses on providing different functionalitiesto build a common representation from different data sources and particularities. Forthis purpose, the proposed generative model, Sparse Semi-supervised Heterogeneous InterbatteryBayesian Factor Analysis (SSHIBA), can learn the feature relevance to perform feature selection,as well as automatically select the number of latent factors. In addition, it can also model heterogeneousdata (real, multi-label and categorical), work with kernels and use a semi-supervisedformulation, which naturally imputes missing values by sampling from the learnt distributions.Results using this model demonstrate the versatility of the formulation, which allows these extensionsto be combined interchangeably, expanding the scenarios in which the model can beapplied and improving the interpretability of the results.Finally, this thesis includes a comparison of the proposed models on the Alzheimer’s diseasedataset, where both provide similar results in terms of performance; however, RB-CCA providesa more robust analysis of mental diseases that is more easily interpretable. On the other hand,while RB-CCA is more limited to specific scenarios, the SSHIBA formulation allows a widervariety of data to be combined and is easily adapted to more complex real-life scenarios. AB Las técnicas de aprendizaje automático (ML) están siendo cruciales en el campo de la salud y,en particular, en el análisis de las enfermedades mentales. Estas se estudian habitualmente conneuroimagen, que se caracteriza por un gran número de variables de entrada en comparacióncon el número de muestras disponibles. El objetivo principal de esta tesis doctoral es proponerdiferentes técnicas de ML para el análisis de enfermedades mentales a partir de datos de neuroimagenincluyendo diferentes extensiones de estos modelos para adaptarlos al escenario de laneurociencia. En particular, esta tesis se centra en el uso de representaciones latentes de imagencerebral, ya que permiten dotar al problema de una representación reducida de baja dimensióna la vez que obtienen una mejor visión de las relaciones internas entre la enfermedad mental ylos datos disponibles. De este modo, el objetivo principal de esta tesis doctoral es proporcionarresultados interpretables y competentes con el estado del arte en el análisis de las enfermedadesmentales.Esta tesis comienza proponiendo un modelo basado en formulaciones clásicas de representaciónlatente, que se apoya en un proceso de bagging para obtener la relevancia de cadavoxel de imagen cerebral, el Análisis de Correlación Canónica Regularizada con Bagging (RBCCA).La relevancia aprendida se combina con un test estadístico para obtener una selección decaracterísticas. Además, la propuesta obtiene una selección por clases que, a su vez, mejora elanálisis del efecto de cada área cerebral en los estadios de la enfermedad mental. Por otro lado,RB-CCA utiliza la medida de relevancia para guiar el proceso de extracción de características,utilizándola para penalizar los vóxeles menos relevantes para obtener la representación de bajadimensión. Los resultados obtenidos en dos bases de datos para la caracterización de la enfermedadde Alzheimer y el Trastorno por Déficit de Atención e Hiperactividad demuestran que elmodelo es capaz de rendir igual o mejor que los baselines a la vez que proporciona solucionesinterpretables.Posteriormente, esta tesis continúa con un segundo modelo que utiliza aproximaciones Bayesianaspara obtener una representación latente. En concreto, este modelo se centra en proporcionardiferentes funcionalidades para construir una representación común a partir de diferentesfuentes de datos y particularidades. Para ello, el modelo generativo propuesto, Sparse SemisupervisedHeterogeneous Interbattery Bayesian Factor Analysis (SSHIBA), puede aprender larelevancia de las características para realizar la selección de las mismas, así como seleccionarautomáticamente el número de factores latentes. Además, también puede modelar datos heterogéneos(reales, multietiqueta y categóricos), trabajar con kernels y utilizar una formulaciónsemisupervisada, que imputa naturalmente los valores perdidos mediante el muestreo de lasdistribuciones aprendidas. Los resultados obtenidos con este modelo demuestran la versatilidadde la formulación, que permite combinar indistintamente estas extensiones, ampliando los escenariosen los que se puede aplicar el modelo y mejorando la interpretabilidad de los resultados. Finalmente, esta tesis incluye una comparación de los modelos propuestos en el conjunto dedatos de la enfermedad de Alzheimer, donde ambos proporcionan resultados similares en términosde rendimiento; sin embargo, RB-CCA proporciona un análisis más robusto de las enfermedadesmentales que es más fácilmente interpretable. Por otro lado, mientras que RB-CCA está máslimitado a escenarios específicos, la formulación SSHIBA permite combinar una mayor variedadde datos y se adapta fácilmente a escenarios más complejos de la vida real. YR 2021 FD 2021-07 LK https://hdl.handle.net/10016/33533 UL https://hdl.handle.net/10016/33533 LA eng NO Mención Internacional en el título de doctor DS e-Archivo RD 1 may. 2024