Publication:
Weakly supervised Deep Learning for Natural Language Processing

Loading...
Thumbnail Image
Identifiers
Publication date
2023-06
Defense date
2023-12-21
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
The main hypothesis of this Ph.D. dissertation is that the use of transfer learning mechanisms, semi-supervised approaches and pre-trained generative language models can improve the performance of models in scenarios with limited annotated data. This can be achieved by transferring the learned knowledge from one task to another, reducing the need for large amounts of annotated data, and generating synthetic instances or representations that enrich the training set, improving the robustness and generalization of the models. In particular, using Deep Learning algorithms that allow acquiring knowledge from tasks with similar features can mitigate the bottleneck problem of lack of rich annotated corpora, thus improving the learning of relevant features for specific Natural Language Processing tasks. The increasing availability of Electronic Health Records (EHR) and patient reviews has resulted in a large volume of clinical documents where some information is unstructured. Due to the high cost of time and resources to extract information from clinical texts, there has been an increased interest in research and development of Natural Language Processing techniques to automate the process and optimize research into new clinical solutions and approaches to improve patient results. However, clinical documents present additional challenges compared to generic texts due to the difference in the language features used, specific acronyms, and non-standardized jargon by each system or clinical center. In addition, the need to de-identify and anonymize texts to guarantee data privacy means that access to clinical documents is limited, leading to a scarcity of annotated corpora. In the present document, datasets consisting of drug reviews and EHRs are employed for Sentiment Analysis and Named Entity Recognition tasks in few-data scenarios in order to validate the hypothesis. The results show that pre-trained models on large corpora based on transformers overcome other Deep Learning algorithms. However, its performance declines when the number of annotated data is limited or when classes are under-represented. Furthermore, the results suggest that employing unlabeled data in semi-supervised approaches or including synthetic instances of pre-trained generative language models improves the performance of discriminative models fine-tuned in a few-data scenario. However, their performance decreases when there is enough training data to learn task-specific relevant features.
La hipótesis principal de esta tesis doctoral es que el uso de mecanismos de aprendizajepor transferencia, enfoques semisupervisados y modelos del lenguaje generativos preentrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural. La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados. En el documento presente, conjuntos de datos formados por reseñas de medicamentos y HCE son empleados para tareas de análisis de sentimientos y de reconocimiento de entidades nombradas en escenarios de pocos datos con el objetivo de validar la hipótesis. Los resultados muestran que los modelos preentrenados basados en transformadores superan a otros algoritmos de Deep Learning. Sin embargo, su rendimiento decae cuando el número de datos anotados es limitado o cuando hay clases infrarrepresentadas. Ademas, los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje preentrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos. La hipótesis principal de esta tesis doctoral es que el uso de mecanismos de aprendizaje por transferencia, enfoques semisupervisados y modelos del lenguaje generativos preentrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural. La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados. En el documento presente, conjuntos de datos formados por reseñas de medicamentos y HCE son empleados para tareas de análisis de sentimientos y de reconocimiento de entidades nombradas en escenarios de pocos datos con el objetivo de validar la hipótesis. Los resultados muestran que los modelos preentrenados basados en transformadores superan a otros algoritmos de Deep Learning. Sin embargo, su rendimiento decae cuando el número de datos anotados es limitado o cuando hay clases infrarrepresentadas. Ademas, los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje preentrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos.
Description
Mención Internacional en el título de doctor
Keywords
Deep learning algorithms, Weakly supervised learning, Natural language processing, Convolutional neural network, Standardized datasets, Clinical texts
Bibliographic citation
Collections