Publication:
Análisis exploratorio de datos de expresión genómica mediante el análisis en conceptos formales

Loading...
Thumbnail Image
Identifiers
Publication date
2016
Defense date
2016-02-04
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Gene Expression Data (GED) analysis poses a great challenge to the scientific community that can be framed into the Knowledge Discovery in Databases (KDD) and Data Mining (DM) disciplines. In this thesis we put forward a framework in which GED analysis is understood as an Exploratory Data Analysis (EDA) process where, by means of the adoption of Formal Concept Analysis (FCA)-related techniques, we provide support for human interaction with data aiming at improving the step of hypothesis abduction. In this way, the contributions of this thesis focuses on the adaptation to human cognition of data interpretation and visualization and the results of a DM process. In particular, we have applied these strategies to transcriptomics, where co-clustering is usually the technique of choice. In this thesis, we do not merely introduce a co-clustering algorithm but instead we offer a set of analysis tools that revolve around K-Formal Concept Analysis, a generalization of FCA that allows to consider real-valued matrices. By using either max-plus or min-plus as the underlying semirings, we obtain interpretations for gene under- and over-expression respectively, thereby also introducing the notion of threshold of expression, a value that determines how the GED matrix is transformed into a concept lattice. In this way, the GED analysis problem gets transformed into the exploration of a sequence of lattices indexed by the aforementioned threshold, enabling the visualization of the hierarchical structure of the co-clusters with a certain degree of granularity. Our graphical representation of this sequence ensures that all the co-clusters with the same set of conditions are always plotted in the same spatial coordinates, therefore facilitating their interpretation and allowing us to introduce the notion of persistence or robustness of a co-cluster. On the other hand, the resulting conceptual lattice can be used to index external databases, such as Gene Ontology (GO), thus offering a new way of accessing other available resources. In this setting, the sequence of lattices from a particular experiment indexes or vertebrates the researcher vision of that given resource. This also allows us: To obtain a quality measure of the co-clusters by obtaining their p-values according to the terminology of those resources, To observe the evolution of a gene throughout the different formal concepts it appears in, as the threshold of expression is modified, including ample information about its characteristics as provided by those resources, and To look for formal concepts or relevant co-clusters observing which genes are included and what their persistence is, to infer, for example, hypotheses on their function. We illustrate the exploration procedure with two real data examples: the effects of selenium on Arabidopsis Thaliana and the response of human trisomic cells to doxycycline.
El análisis de Datos de Expresión Genética (ing. "Gene Expression Data", GED) supone un gran reto para la comunidad científica que, debido a sus características, podemos enmarcar en las disciplinas de Descubrimiento de Conocimiento en Bases de Datos (ing. "Knowledge Discovery in Databases", KDD) y Minería de Datos (ing. "Data Mining", DM). En esta tesis proponemos un sistema en el que entendemos el análisis de GED como un proceso Análisis Exploratorio de Datos (ing. “Exploratory Data Analysis”, EDA) y en el que mediante la adopción de técnicas basadas en el Análisis en Conceptos Formales (ing. "Formal Concept Analysis", FCA) proporcionamos soporte para la interacción humana con los datos, con el objetivo de mejorar el proceso de abducción de hipótesis. Así, las contribuciones de esta tesis se centran en la adaptación a la cognición humana de la interpretación y visualización de los datos y resultados del proceso de DM. En concreto, el dominio de conocimiento en el que se han aplicado estas estrategias es el de la transcriptómica en el que la co-agrupación (o co-clustering) de genes es el enfoque más comúnmente adoptado. En esta tesis no planteamos simplemente un algoritmo de co-agrupamiento sino un conjunto de herramientas de análisis que giran en torno a K-Formal Concept Analysis una generalización de FCA que permite estudiar matrices en el dominio de los números reales. Utilizando como semi-anillos subyacentes las álgebras maxplus y minplus se obtienen interpretaciones de la infra-expresión y la sobre-expresión de los genes, respectivamente introduciendo además la noción de umbral de expresión, un valor que determinará cómo se transforma la matriz de expresión genética (GED) en un retículo de conceptos. De esta manera, el problema del análisis de GED se transforma en la exploración de una secuencia de retículos indexados por dicho umbral que permiten visualizar la estructura jerárquica de los co-agrupamientos con mayor o menor nivel de granularidad. Nuestra representación gráfica de esta secuencia permite comparar cómo varían los retículos de conceptos dibujando siempre los conceptos que involucran al mismo conjunto de condiciones en la misma posición, lo que facilita su interpretación e introduce el concepto de persistencia o robustez de un co-agrupamiento. Por otra parte, el retículo conceptual resultante del FCA puede usarse para indexar bases de datos externas lo que ofrece una nueva manera para acceder a otros recursos disponibles como Gene Ontology (GO), en dónde la secuencia de retículos resultante de un experimento particular indexa o vertebra la visión del investigador de dicho recurso. Además esto nos permite: obtener una medida de la calidad de los co-agrupamientos mediante el p-valor obtenido a la hora de analizar las terminología de estos recursos, observar la evolución de un gen a través de los diferentes conceptos formales en los que aparece a medida que se modifica el umbral, contando con amplia información acerca de las características del gen proporcionada por estos recursos, y buscar conceptos formales o co-agrupamientos de interés y ver qué genes están incluidos en función del umbral de confianza aplicado para inferir, por ejemplo, hipótesis sobre su función. Ilustramos este procedimiento con el análisis de datos reales de los efectos del selenio en la Arabidopsis Thaliana y de la respuesta a la doxiciclina de células trisómicas humanas.
Description
Keywords
Datos de expresión genética, Minería de datos, Análisis exploratorio de datos, Conceptos formales
Bibliographic citation
Collections