Publication: Análisis exploratorio de datos de expresión genómica mediante el análisis en conceptos formales
Loading...
Identifiers
Publication date
2016
Defense date
2016-02-04
Authors
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Gene Expression Data (GED) analysis poses a great challenge to the scientific community
that can be framed into the Knowledge Discovery in Databases (KDD) and Data Mining
(DM) disciplines.
In this thesis we put forward a framework in which GED analysis is understood as an
Exploratory Data Analysis (EDA) process where, by means of the adoption of Formal Concept
Analysis (FCA)-related techniques, we provide support for human interaction with data aiming
at improving the step of hypothesis abduction. In this way, the contributions of this thesis
focuses on the adaptation to human cognition of data interpretation and visualization and
the results of a DM process.
In particular, we have applied these strategies to transcriptomics, where co-clustering is
usually the technique of choice. In this thesis, we do not merely introduce a co-clustering
algorithm but instead we offer a set of analysis tools that revolve around K-Formal Concept
Analysis, a generalization of FCA that allows to consider real-valued matrices. By using
either max-plus or min-plus as the underlying semirings, we obtain interpretations for gene
under- and over-expression respectively, thereby also introducing the notion of threshold of
expression, a value that determines how the GED matrix is transformed into a concept lattice.
In this way, the GED analysis problem gets transformed into the exploration of a sequence of
lattices indexed by the aforementioned threshold, enabling the visualization of the hierarchical
structure of the co-clusters with a certain degree of granularity. Our graphical representation
of this sequence ensures that all the co-clusters with the same set of conditions are always
plotted in the same spatial coordinates, therefore facilitating their interpretation and allowing
us to introduce the notion of persistence or robustness of a co-cluster.
On the other hand, the resulting conceptual lattice can be used to index external databases,
such as Gene Ontology (GO), thus offering a new way of accessing other available resources.
In this setting, the sequence of lattices from a particular experiment indexes or vertebrates
the researcher vision of that given resource. This also allows us:
To obtain a quality measure of the co-clusters by obtaining their p-values according to
the terminology of those resources,
To observe the evolution of a gene throughout the different formal concepts it appears
in, as the threshold of expression is modified, including ample information about its
characteristics as provided by those resources, and
To look for formal concepts or relevant co-clusters observing which genes are included
and what their persistence is, to infer, for example, hypotheses on their function.
We illustrate the exploration procedure with two real data examples: the effects of
selenium on Arabidopsis Thaliana and the response of human trisomic cells to doxycycline.
El análisis de Datos de Expresión Genética (ing. "Gene Expression Data", GED) supone un gran reto para la comunidad científica que, debido a sus características, podemos enmarcar en las disciplinas de Descubrimiento de Conocimiento en Bases de Datos (ing. "Knowledge Discovery in Databases", KDD) y Minería de Datos (ing. "Data Mining", DM). En esta tesis proponemos un sistema en el que entendemos el análisis de GED como un proceso Análisis Exploratorio de Datos (ing. “Exploratory Data Analysis”, EDA) y en el que mediante la adopción de técnicas basadas en el Análisis en Conceptos Formales (ing. "Formal Concept Analysis", FCA) proporcionamos soporte para la interacción humana con los datos, con el objetivo de mejorar el proceso de abducción de hipótesis. Así, las contribuciones de esta tesis se centran en la adaptación a la cognición humana de la interpretación y visualización de los datos y resultados del proceso de DM. En concreto, el dominio de conocimiento en el que se han aplicado estas estrategias es el de la transcriptómica en el que la co-agrupación (o co-clustering) de genes es el enfoque más comúnmente adoptado. En esta tesis no planteamos simplemente un algoritmo de co-agrupamiento sino un conjunto de herramientas de análisis que giran en torno a K-Formal Concept Analysis una generalización de FCA que permite estudiar matrices en el dominio de los números reales. Utilizando como semi-anillos subyacentes las álgebras maxplus y minplus se obtienen interpretaciones de la infra-expresión y la sobre-expresión de los genes, respectivamente introduciendo además la noción de umbral de expresión, un valor que determinará cómo se transforma la matriz de expresión genética (GED) en un retículo de conceptos. De esta manera, el problema del análisis de GED se transforma en la exploración de una secuencia de retículos indexados por dicho umbral que permiten visualizar la estructura jerárquica de los co-agrupamientos con mayor o menor nivel de granularidad. Nuestra representación gráfica de esta secuencia permite comparar cómo varían los retículos de conceptos dibujando siempre los conceptos que involucran al mismo conjunto de condiciones en la misma posición, lo que facilita su interpretación e introduce el concepto de persistencia o robustez de un co-agrupamiento. Por otra parte, el retículo conceptual resultante del FCA puede usarse para indexar bases de datos externas lo que ofrece una nueva manera para acceder a otros recursos disponibles como Gene Ontology (GO), en dónde la secuencia de retículos resultante de un experimento particular indexa o vertebra la visión del investigador de dicho recurso. Además esto nos permite: obtener una medida de la calidad de los co-agrupamientos mediante el p-valor obtenido a la hora de analizar las terminología de estos recursos, observar la evolución de un gen a través de los diferentes conceptos formales en los que aparece a medida que se modifica el umbral, contando con amplia información acerca de las características del gen proporcionada por estos recursos, y buscar conceptos formales o co-agrupamientos de interés y ver qué genes están incluidos en función del umbral de confianza aplicado para inferir, por ejemplo, hipótesis sobre su función. Ilustramos este procedimiento con el análisis de datos reales de los efectos del selenio en la Arabidopsis Thaliana y de la respuesta a la doxiciclina de células trisómicas humanas.
El análisis de Datos de Expresión Genética (ing. "Gene Expression Data", GED) supone un gran reto para la comunidad científica que, debido a sus características, podemos enmarcar en las disciplinas de Descubrimiento de Conocimiento en Bases de Datos (ing. "Knowledge Discovery in Databases", KDD) y Minería de Datos (ing. "Data Mining", DM). En esta tesis proponemos un sistema en el que entendemos el análisis de GED como un proceso Análisis Exploratorio de Datos (ing. “Exploratory Data Analysis”, EDA) y en el que mediante la adopción de técnicas basadas en el Análisis en Conceptos Formales (ing. "Formal Concept Analysis", FCA) proporcionamos soporte para la interacción humana con los datos, con el objetivo de mejorar el proceso de abducción de hipótesis. Así, las contribuciones de esta tesis se centran en la adaptación a la cognición humana de la interpretación y visualización de los datos y resultados del proceso de DM. En concreto, el dominio de conocimiento en el que se han aplicado estas estrategias es el de la transcriptómica en el que la co-agrupación (o co-clustering) de genes es el enfoque más comúnmente adoptado. En esta tesis no planteamos simplemente un algoritmo de co-agrupamiento sino un conjunto de herramientas de análisis que giran en torno a K-Formal Concept Analysis una generalización de FCA que permite estudiar matrices en el dominio de los números reales. Utilizando como semi-anillos subyacentes las álgebras maxplus y minplus se obtienen interpretaciones de la infra-expresión y la sobre-expresión de los genes, respectivamente introduciendo además la noción de umbral de expresión, un valor que determinará cómo se transforma la matriz de expresión genética (GED) en un retículo de conceptos. De esta manera, el problema del análisis de GED se transforma en la exploración de una secuencia de retículos indexados por dicho umbral que permiten visualizar la estructura jerárquica de los co-agrupamientos con mayor o menor nivel de granularidad. Nuestra representación gráfica de esta secuencia permite comparar cómo varían los retículos de conceptos dibujando siempre los conceptos que involucran al mismo conjunto de condiciones en la misma posición, lo que facilita su interpretación e introduce el concepto de persistencia o robustez de un co-agrupamiento. Por otra parte, el retículo conceptual resultante del FCA puede usarse para indexar bases de datos externas lo que ofrece una nueva manera para acceder a otros recursos disponibles como Gene Ontology (GO), en dónde la secuencia de retículos resultante de un experimento particular indexa o vertebra la visión del investigador de dicho recurso. Además esto nos permite: obtener una medida de la calidad de los co-agrupamientos mediante el p-valor obtenido a la hora de analizar las terminología de estos recursos, observar la evolución de un gen a través de los diferentes conceptos formales en los que aparece a medida que se modifica el umbral, contando con amplia información acerca de las características del gen proporcionada por estos recursos, y buscar conceptos formales o co-agrupamientos de interés y ver qué genes están incluidos en función del umbral de confianza aplicado para inferir, por ejemplo, hipótesis sobre su función. Ilustramos este procedimiento con el análisis de datos reales de los efectos del selenio en la Arabidopsis Thaliana y de la respuesta a la doxiciclina de células trisómicas humanas.
Description
Keywords
Datos de expresión genética, Minería de datos, Análisis exploratorio de datos, Conceptos formales