RT Dissertation/Thesis T1 Clinical microbiology with multi-view deep probabilistic models A1 Guerrero López, Alejandro Jorge AB Clinical microbiology is one of the critical topics of this century. Identificationand discrimination of microorganisms is considered a global public healththreat by the main international health organisations, such as World HealthOrganisation (WHO) or the European Centre for Disease Prevention and Control(ECDC). Rapid spread, high morbidity and mortality, as well as the economicburden associated with their treatment and control are the main causes of theirimpact. Discrimination of microorganisms is crucial for clinical applications, forinstance, Clostridium difficile (C. diff ) increases the mortality and morbidity ofhealthcare-related infections. Furthermore, in the past two decades, other bacteria,including Klebsiella pneumoniae (K. pneumonia), have demonstrated a significantpropensity to acquire antibiotic resistance mechanisms. Consequently, the use ofan ineffective antibiotic may result in mortality. Machine Learning (ML) has thepotential to be applied in the clinical microbiology field to automatise currentmethodologies and provide more efficient guided personalised treatments.However, microbiological data are challenging to exploit owing to the presenceof a heterogeneous mix of data types, such as real-valued high-dimensional data,categorical indicators, multilabel epidemiological data, binary targets, or eventime-series data representations. This problem, which in the field of ML is knownas multi-view or multi-modal representation learning, has been studied in otherapplication fields such as mental health monitoring or haematology. Multi-viewlearning combines different modalities or views representing the same data to extractricher insights and improve understanding. Each modality or view correspondsto a distinct encoding mechanism for the data, and this dissertation specificallyaddresses the issue of heterogeneity across multiple views.In the probabilistic ML field, the exploitation of multi-view learning is alsoknown as Bayesian Factor Analysis (FA). Current solutions face limitations whenhandling high-dimensional data and non-linear associations. Recent researchproposes deep probabilistic methods to learn hierarchical representations of the data,which can capture intricate non-linear relationships between features. However,some Deep Learning (DL) techniques rely on complicated representations, whichcan hinder the interpretation of the outcomes. In addition, some inference methodsused in DL approaches can be computationally burdensome, which can hinder theirpractical application in real-world situations. Therefore, there is a demand formore interpretable, explainable, and computationally efficient techniques for highdimensionaldata. By combining multiple views representing the same information, such as genomic, proteomic, and epidemiologic data, multi-modal representationlearning could provide a better understanding of the microbial world. Hence,in this dissertation, the development of two deep probabilistic models, that canhandle current limitations in state-of-the-art of clinical microbiology, are proposed.Moreover, both models are also tested in two real scenarios regarding antibioticresistance prediction in K. pneumoniae and automatic ribotyping of C. diff incollaboration with the Instituto de Investigación Sanitaria Gregorio Marañón(IISGM) and the Instituto Ramón y Cajal de Investigación Sanitaria (IRyCIS).The first presented algorithm is the Kernelised Sparse Semi-supervised HeterogeneousInterbattery Bayesian Analysis (SSHIBA). This algorithm uses a kernelisedformulation to handle non-linear data relationships while providing compact representationsthrough the automatic selection of relevant vectors. Additionally, ituses an Automatic Relevance Determination (ARD) over the kernel to determinethe input feature relevance functionality. Then, it is tailored and applied to themicrobiological laboratories of the IISGM and IRyCIS to predict antibiotic resistancein K. pneumoniae. To do so, specific kernels that handle Matrix-AssistedLaser Desorption Ionization (MALDI)-Time-Of-Flight (TOF) mass spectrometryof bacteria are used. Moreover, by exploiting the multi-modal learning betweenthe spectra and epidemiological information, it outperforms other state-of-the-artalgorithms. Presented results demonstrate the importance of heterogeneous modelsthat can analyse epidemiological information and can automatically be adjusted fordifferent data distributions. The implementation of this method in microbiologicallaboratories could significantly reduce the time required to obtain resistance resultsin 24-72 hours and, moreover, improve patient outcomes.The second algorithm is a hierarchical Variational AutoEncoder (VAE) forheterogeneous data using an explainable FA latent space, called FA-VAE. TheFA-VAE model is built on the foundation of the successful KSSHIBA approach fordealing with semi-supervised heterogeneous multi-view problems. This approachfurther expands the range of data domains it can handle. With the ability towork with a wide range of data types, including multilabel, continuous, binary,categorical, and even image data, the FA-VAE model offers a versatile and powerfulsolution for real-world data sets, depending on the VAE architecture. Additionally,this model is adapted and used in the microbiological laboratory of IISGM, resultingin an innovative technique for automatic ribotyping of C. diff, using MALDI-TOFdata. To the best of our knowledge, this is the first demonstration of using anykind of ML for C. diff ribotyping. Experiments have been conducted on strainsof Hospital General Universitario Gregorio Marañón (HGUGM) to evaluate theviability of the proposed approach. The results have demonstrated high accuracyrates where KSSHIBA even achieved perfect accuracy in the first data collection.These models have also been tested in a real-life outbreak scenario at the HGUGM,where successful classification of all outbreak samples has been achieved by FAVAE. The presented results have not only shown high accuracy in predictingeach strain’s ribotype but also revealed an explainable latent space. Furthermore,traditional ribotyping methods, which rely on PCR, required 7 days while FA-VAEhas predicted equal results on the same day. This improvement has significantlyreduced the time response by helping in the decision-making of isolating patientswith hyper-virulent ribotypes of C. diff on the same day of infection. The promisingresults, obtained in a real outbreak, have provided a solid foundation for furtheradvancements in the field. This study has been a crucial stepping stone towardsrealising the full potential of MALDI-TOF for bacterial ribotyping and advancingour ability to tackle bacterial outbreaks.In conclusion, this doctoral thesis has significantly contributed to the field ofBayesian FA by addressing its drawbacks in handling various data types throughthe creation of novel models, namely KSSHIBA and FA-VAE. Additionally, acomprehensive analysis of the limitations of automating laboratory procedures inthe microbiology field has been carried out. The shown effectiveness of the newlydeveloped models has been demonstrated through their successful implementation incritical problems, such as predicting antibiotic resistance and automating ribotyping.As a result, KSSHIBA and FA-VAE, both in terms of their technical and practicalcontributions, signify noteworthy progress both in the clinical and the Bayesianstatistics fields. This dissertation opens up possibilities for future advancements inautomating microbiological laboratories. AB La microbiología clínica es uno de los temas críticos de este siglo. La identificacióny discriminación de microorganismos se considera una amenaza mundialpara la salud pública por parte de las principales organizaciones internacionales desalud, como la Organización Mundial de la Salud (OMS) o el Centro Europeo parala Prevención y Control de Enfermedades (ECDC). La rápida propagación, altamorbilidad y mortalidad, así como la carga económica asociada con su tratamientoy control, son las principales causas de su impacto. La discriminación de microorganismoses crucial para aplicaciones clínicas, como el caso de Clostridium difficile(C. diff ), el cual aumenta la mortalidad y morbilidad de las infecciones relacionadascon la atención médica. Además, en las últimas dos décadas, otros tipos de bacterias,incluyendo Klebsiella pneumoniae (K. pneumonia), han demostrado unapropensión significativa a adquirir mecanismos de resistencia a los antibióticos. Enconsecuencia, el uso de un antibiótico ineficaz puede resultar en un aumento de lamortalidad. El aprendizaje automático (ML) tiene el potencial de ser aplicado enel campo de la microbiología clínica para automatizar las metodologías actuales yproporcionar tratamientos personalizados más eficientes y guiados.Sin embargo, los datos microbiológicos son difíciles de explotar debido a lapresencia de una mezcla heterogénea de tipos de datos, tales como datos reales dealta dimensionalidad, indicadores categóricos, datos epidemiológicos multietiqueta,objetivos binarios o incluso series temporales. Este problema, conocido en el campodel aprendizaje automático (ML) como aprendizaje multimodal o multivista, hasido estudiado en otras áreas de aplicación, como en el monitoreo de la salud mentalo la hematología. El aprendizaje multivista combina diferentes modalidades o vistasque representan los mismos datos para extraer conocimientos más ricos y mejorar lacomprensión. Cada vista corresponde a un mecanismo de codificación distinto paralos datos, y esta tesis aborda particularmente el problema de la heterogeneidadmultivista.En el campo del aprendizaje automático probabilístico, la explotación del aprendizajemultivista también se conoce como Análisis de Factores (FA) Bayesianos.Las soluciones actuales enfrentan limitaciones al manejar datos de alta dimensionalidady correlaciones no lineales. Investigaciones recientes proponen métodosprobabilísticos profundos para aprender representaciones jerárquicas de los datos,que pueden capturar relaciones no lineales intrincadas entre características. Sinembargo, algunas técnicas de aprendizaje profundo (DL) se basan en representacionescomplejas, dificultando así la interpretación de los resultados. Además, algunos métodos de inferencia utilizados en DL pueden ser computacionalmentecostosos, obstaculizando su aplicación práctica. Por lo tanto, existe una demanda detécnicas más interpretables, explicables y computacionalmente eficientes para datosde alta dimensionalidad. Al combinar múltiples vistas que representan la mismainformación, como datos genómicos, proteómicos y epidemiológicos, el aprendizajemultimodal podría proporcionar una mejor comprensión del mundo microbiano.Dicho lo cual, en esta tesis se proponen el desarrollo de dos modelos probabilísticosprofundos que pueden manejar las limitaciones actuales en el estado del arte de lamicrobiología clínica. Además, ambos modelos también se someten a prueba endos escenarios reales relacionados con la predicción de resistencia a los antibióticosen K. pneumoniae y el ribotipado automático de C. diff en colaboración con elIISGM y el IRyCIS.El primer algoritmo presentado es Kernelised Sparse Semi-supervised HeterogeneousInterbattery Bayesian Analysis (SSHIBA). Este algoritmo utiliza unaformulación kernelizada para manejar correlaciones no lineales proporcionando representacionescompactas a través de la selección automática de vectores relevantes.Además, utiliza un Automatic Relevance Determination (ARD) sobre el kernelpara determinar la relevancia de las características de entrada. Luego, se adaptay aplica a los laboratorios microbiológicos del IISGM y IRyCIS para predecir laresistencia a antibióticos en K. pneumoniae. Para ello, se utilizan kernels específicosque manejan la espectrometría de masas Matrix-Assisted Laser DesorptionIonization (MALDI)-Time-Of-Flight (TOF) de bacterias. Además, al aprovechar elaprendizaje multimodal entre los espectros y la información epidemiológica, superaa otros algoritmos de última generación. Los resultados presentados demuestran laimportancia de los modelos heterogéneos ya que pueden analizar la informaciónepidemiológica y ajustarse automáticamente para diferentes distribuciones de datos.La implementación de este método en laboratorios microbiológicos podría reducirsignificativamente el tiempo requerido para obtener resultados de resistencia en24-72 horas y, además, mejorar los resultados para los pacientes.El segundo algoritmo es un modelo jerárquico de Variational AutoEncoder(VAE) para datos heterogéneos que utiliza un espacio latente con un FA explicativo,llamado FA-VAE. El modelo FA-VAE se construye sobre la base del enfoque deKSSHIBA para tratar problemas semi-supervisados multivista. Esta propuestaamplía aún más el rango de dominios que puede manejar incluyendo multietiqueta,continuos, binarios, categóricos e incluso imágenes. De esta forma, el modeloFA-VAE ofrece una solución versátil y potente para conjuntos de datos realistas,dependiendo de la arquitectura del VAE. Además, este modelo es adaptado yutilizado en el laboratorio microbiológico del IISGM, lo que resulta en una técnicainnovadora para el ribotipado automático de C. diff utilizando datos MALDI-TOF.Hasta donde sabemos, esta es la primera demostración del uso de cualquier tipode ML para el ribotipado de C. diff. Se han realizado experimentos en cepas del Hospital General Universitario Gregorio Marañón (HGUGM) para evaluar laviabilidad de la técnica propuesta. Los resultados han demostrado altas tasas deprecisión donde KSSHIBA incluso logró una clasificación perfecta en la primeracolección de datos. Estos modelos también se han probado en un brote realen el HGUGM, donde FA-VAE logró clasificar con éxito todas las muestras delmismo. Los resultados presentados no solo han demostrado una alta precisiónen la predicción del ribotipo de cada cepa, sino que también han revelado unespacio latente explicativo. Además, los métodos tradicionales de ribotipado, quedependen de PCR, requieren 7 días para obtener resultados mientras que FA-VAEha predicho resultados correctos el mismo día del brote. Esta mejora ha reducidosignificativamente el tiempo de respuesta ayudando así en la toma de decisionespara aislar a los pacientes con ribotipos hipervirulentos de C. diff el mismo díade la infección. Los resultados prometedores, obtenidos en un brote real, hansentado las bases para nuevos avances en el campo. Este estudio ha sido un pasocrucial hacia el despliegue del pleno potencial de MALDI-TOF para el ribotipadobacteriana avanzado así nuestra capacidad para abordar brotes bacterianos.En conclusión, esta tesis doctoral ha contribuido significativamente al campodel FA Bayesiano al abordar sus limitaciones en el manejo de tipos de datosheterogéneos a través de la creación de modelos noveles, concretamente, KSSHIBAy FA-VAE. Además, se ha llevado a cabo un análisis exhaustivo de las limitaciones dela automatización de procedimientos de laboratorio en el campo de la microbiología.La efectividad de los nuevos modelos, en este campo, se ha demostrado a través de suimplementación exitosa en problemas críticos, como la predicción de resistencia a losantibióticos y la automatización del ribotipado. Como resultado, KSSHIBA y FAVAE,tanto en términos de sus contribuciones técnicas como prácticas, representanun progreso notable tanto en los campos clínicos como en la estadística Bayesiana.Esta disertación abre posibilidades para futuros avances en la automatización delaboratorios microbiológicos. YR 2023 FD 2023-05 LK https://hdl.handle.net/10016/37432 UL https://hdl.handle.net/10016/37432 LA eng DS e-Archivo RD 30 jun. 2024