Publication:
Generative Modeling using a database of patients with Acute Myeloid Leukemia

Loading...
Thumbnail Image
Identifiers
Publication date
2018-06
Defense date
2018-07-13
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
The main idea of this thesis is to apply unsupervised machine learning, particularly Generative Modeling to a database of patients with Acute Myeloid Leukemia. This approach allows discovering correlations among patients that doctors knew existed but did not know exactly how they worked. By selecting the right variables to study (the most important ones, which give the most information), the patients can be separated into several groups or clusters, containing those with similar characteristics. This is very interesting in medical data science (as well as in many other fields) because it enables to extract better, deeper and more interesting conclusions from the data. Generative Modeling is also a good approach when the amount of data is not enormous, the case of the database used for this thesis. The data is studied from an agnostic point of view, following a pure statistical analysis that is later double checked with experts on the field. A non-observed variable (latent variable) is assumed to explain the relations among the patients, and divide them into the mentioned clusters; using a proposed Gaussian-Bernoulli mixture model, that latent variable is inferred as a set of probabilities for each patient to belong in one of the defined clusters. The model is implemented in open-source programming language Python.
La idea principal de este proyecto es aplicar aprendizaje máquina no supervisado, particularmente modelos generativos, a una base de datos de pacientes con leucemia mieloide aguda. Este análisis permite descubrir relaciones entre pacientes que los médicos conocían pero no sabían exáctamente cómo funcionaban. Seleccionando las variables correctas a analizar (aquellas que nos dan más información, las más significativas), los pacientes pueden ser separados en varios grupos, denominados clusters, cada uno conteniendo pacientes con características similares. Esto es especialmente interesante en la ciencia de datos médicos ya que permite obtener conclusiones muy importantes acerca de los datos empleados para esa separación. Los modelos generativos son también un buen método cuando la cantidad de datos disponible no es enorme, el caso de este trabajo. Los datos son estudiados desde un punto de vista agnóstico, siguiendo un análisis púramente estadístico que es comprobado con médicos expertos en el campo. Se asume que una variable no observable (denominada variable latente) explica las correlaciones entre los pacientes y los divide en los mencionados clusters; utilizando un modelo propuesto para una mezcla de Gausianas y Bernoullies, esa variable latente es inferida como un conjunto de probabilidades de que cada paciente pertenezca a una de las agrupaciones predefinidas. El modelo está implementado en el lenguaje de programación open source Python.
Description
Keywords
Unsupervised learning, Generative Modeling, Gaussian mixture, Bernoulli mixture, Latent variable, Data science, Machine learning, Python
Bibliographic citation