Publication:
Advanced Inference and Representation Learning Methods in Variational Autoencoders

Loading...
Thumbnail Image
Identifiers
Publication date
2023-04
Defense date
2023-09-22
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Deep Generative Models have gained significant popularity in the Machine Learning research community since the early 2010s. These models allow to generate realistic data by leveraging the power of Deep Neural Networks. The field experienced a significant breakthrough when Variational Autoencoders (VAEs) were introduced. VAEs revolutionized Deep Generative Modeling by providing a scalable and flexible framework that enables the generation of complex data distributions and the learning of potentially interpretable latent representations. They have proven to be a powerful tool in numerous applications, from image, sound and video generation to natural language processing or drug discovery, among others. At their core, VAEs encode natural information into a reduced latent space and decode the learned latent space into new synthetic data. Advanced versions of VAEs have been developed to handle challenges such as handling heterogeneous incomplete data, encoding into hierarchical latent spaces for representing abstract and richer concepts, or modeling sequential data, among others. These advances have expanded the capabilities of VAEs and made them a valuable tool in a wide range of fields. Despite the significant progress made in VAE research, there is still ample room for improvement in their current state-of-the-art. One of the major challenges is improving their approximate inference. VAEs typically assume Gaussian approximations of the posterior distribution of the latent variables in order to make the training objective tractable. The parameters of this approximation are provided by encoder networks. However, this approximation leads to a lower bounded objective, which can degrade the performance of any task that requires samples from the approximate posterior, due to the implicit bias. The second major challenge addressed in this thesis is related to achieving meaningful latent representations, or more broadly, how the latent space disentangles generative factors of variation. Ideally, the latent space would modulate meaningful properties separately within each dimension. However, Maximum Likelihood optimizations require the marginalization of latent variables, leading to non-unique solutions that may or may not achieve this desired disentanglement. Additionally, properties learned at the observation level in VAEs assume that every observation is generated independently, which may not be the case in some scenarios. To address these limitations, more robust VAEs have been developed to learn disentangled properties at the supervised group (also referred to as global) level. These models are capable of generating groups of data with shared properties. The work presented in this doctoral thesis focuses on the development of novel methods for improving the state-of-the-art in VAEs. Specifically, three fundamental challenges are addressed: achieving meaningful global latent representations, obtaining highly-flexible priors for learning more expressive models, and improving current approximate inference methods. As a first main contribution, an innovative technique named UG-VAE from Unsupervised-Global VAE, aims to enhance the ability of VAEs in capturing factors of variations at data (local) and group (global) level. By carefully desigining the encoder and the decoder, and throughout conductive experiments, it is demonstrated that UG-VAE is effective in capturing unsupervised global factors from images. Second, a non-trivial combination of highly-expressive Hierarchical VAEs with robust Markov Chain Monte Carlo inference (specifically Hamiltonian Monte Carlo), for which important issues are successfully resolved, is presented. The resulting model, referred to as the Hierarchical Hamiltonian VAE model for Mixed-type incomplete data (HH-VAEM), addresses the challenges associated with imputing and acquiring heterogeneous missing data. Throughout extensive experiments, it is demonstrated that HH-VAEM outperforms existing one-layered and Gaussian baselines in the tasks of missing data imputation and supervised learning with missing features, thanks to its improved inference and expressivity. Furthermore, another relevant contribution is presented, namely a sampling-based approach for efficiently computing the information gain when missing features are to be acquired with HH-VAEM. This approach leverages the advantages of HH-VAEM and is demonstrated to be effective in the same tasks.
Los Modelos Generativos han ganado una gran popularidad en la comunidad de investigación de Aprendizaje Automático desde principios de la década de 2010. Estos modelos permiten generar datos realistas aprovechando la capacidad de las Redes Neuronales Profundas. El campo experimentó un avance significativo cuando se introdujeron los Autoencoders Variacionales (VAEs). Los VAEs revolucionaron los Modelos Generativos Profundos al proporcionar un marco escalable y flexible que permite la generación de distribuciones de datos complejas y el aprendizaje de representaciones latentes potencialmente interpretables. Han demostrado ser una herramienta poderosa en numerosas aplicaciones, desde la generación de imágenes, sonido y video hasta el procesamiento del lenguaje natural o el descubrimiento de medicamentos, entre otros. En su definición básica, los VAEs codifican información natural en un espacio latente reducido y decodifican el espacio latente aprendido en nuevos datos sintéticos. Se han desarrollado versiones avanzadas de VAEs para manejar desafíos como el manejo de datos incompletos heterogéneos, la codificación en espacios latentes jerárquicos para representar conceptos abstractos y más ricos, o el modelado de datos secuenciales, entre otros. Estos avances han ampliado las capacidades de los VAEs y los han convertido en una herramienta valiosa en una amplia gama de campos. A pesar del progreso significativo en la investigación en VAEs, todavía hay amplio margen para mejorar el estado del arte. Uno de los principales desafíos es mejorar su inferencia aproximada. Los VAEs típicamente asumen aproximaciones Gaussianas de la distribución posterior de las variables latentes para hacer que el objetivo de entrenamiento sea computable. Los parámetros de esta aproximación son proporcionados por la red de codificadora. Sin embargo, esta aproximación conduce a un objetivo sesgado, lo que puede degradar el rendimiento de cualquier tarea que requiera muestras de esta distribución posterior, debido al sesgo implícito. El segundo desafío importante abordado en esta tesis se relaciona con lograr representaciones latentes significativas o, más ampliamente, cómo el espacio latente organiza los factores generativos de variación. Idealmente, el espacio latente modularía propiedades significativas por separado en cada dimensión. Sin embargo, las optimizaciones de Máxima Verosimilitud requieren la marginalización de las variables latentes, lo que lleva a soluciones no únicas que pueden o no lograr esta organización deseada. Además, las propiedades aprendidas a nivel de observación en los VAEs asumen que cada observación se genera de manera independiente, lo que puede no ser el caso en algunos escenarios. Para abordar estas limitaciones, se han desarrollado VAEs más robustos para aprender propiedades organizadas a nivel de grupo (también denominado nivel global) de manera supervisada. Estos modelos son capaces de generar grupos de datos con propiedades compartidas. El trabajo presentado en esta tesis doctoral se centra en el desarrollo de nuevos métodos para mejorar el estado del arte en VAEs. Específicamente, se abordan tres desafíos fundamentales: lograr representaciones latentes globales interpretables, obtener priors altamente flexibles para aprender modelos más expresivos y mejorar los métodos de inferencia aproximada actuales. Como primera contribución principal, se presenta una técnica innovadora llamada UG-VAE de Unsupervised-Global VAE, que tiene como objetivo mejorar la capacidad de los VAEs en la captura de factores de variación a nivel de datos (local) y grupo (global). A través de los experimentos llevados a cabo, se demuestra que UG-VAE es efectivo en la captura de factores globales no supervisados a partir de imágenes mediante el diseño cuidadoso del codificador y decodificador. En segundo lugar, se presenta una combinación no trivial de VAEs jerárquicos altamente expresivos con una inferencia robusta mediante Markov Chain Monte Carlo (específicamente Hamiltonian Monte Carlo), para la cual se resuelven con éxito importantes problemas. El modelo resultante, denominado HH-VAEM por VAE jerárquico con Hamiltonian Monte Carlo para datos incompletos heterogéneos, aborda los desafíos asociados con la imputación y adquisición de datos perdidos heterogéneos. A través de extensos experimentos, se demuestra que HH-VAEM supera a las alternativas existentes de una capa y basados en aproximaciones Gaussianas en las tareas de imputación de datos perdidos y aprendizaje supervisado con datos parciales, gracias a su mejora en la inferencia y expresividad. Además, se presenta como otra contribución relevante, un método basado en muestreo para calcular eficientemente la ganancia de información cuando se adquieren variables perdidas con HH-VAEM. Este enfoque aprovecha las ventajas de HH-VAEM y se demuestra que es efectivo en las mismas tareas.
Description
Mención Internacional en el título de doctor
Keywords
Machine learning, Deep learning, Generative models, Variational autoencoders
Bibliographic citation
Collections