Department/Institute:
Universidad Carlos III de Madrid. Departamento de Informática
Degree:
Programa de Doctorado en Ciencia y Tecnología Informática por la Universidad Carlos III de Madrid
Issued date:
2021-02
Defense date:
2021-02-09
Committee:
Presidente: David Expósito Singh.- Secretario: Mª de los Santos Pérez Hernández.- Vocal: Fco. Javier Paul Soler Jermyn
xmlui.dri2xhtml.METS-1.0.item-contributor-funder:
Ministerio de Educación, Cultura y Deporte (España)
Sponsor:
This PhD dissertation has been mostly developed
at CERN, supported by the CERN Doctoral Student
Programme (from February 1, 2018 to January
31, 2021).
This PhD dissertation has been partially supported
by the Spanish Ministry of Education,
Culture and Sports under an FPU fellowship with
identifier FPU16/01957 (from October 1, 2017 to
January 31, 2018).
Rights:
Atribución-NoComercial-SinDerivadas 3.0 España
Abstract:
Deep-learning methods are playing a crucial role in numerous scientific and industrial
applications. Over the past two decades, these techniques have helped in the collection,
reconstruction, and analysis of large data samples in particle physics experimentsDeep-learning methods are playing a crucial role in numerous scientific and industrial
applications. Over the past two decades, these techniques have helped in the collection,
reconstruction, and analysis of large data samples in particle physics experiments. The
main topic of this PhD research is the study of deep-learning techniques in long-baseline
neutrino oscillation experiments. Neutrinos are mysterious light elementary particles,
and their investigation is essential to shed light on some of the remaining open questions
in physics. The work presented here describes an algorithm based on a convolutional
neural network developed to provide highly accurate and efficient selections of electron
neutrino and muon neutrino interactions in the Deep Underground Neutrino Experiment
(DUNE). With this algorithm, the electron neutrino (antineutrino) selection efficiency
peaks at 90% (94%) and exceeds 85% (90%) for reconstructed neutrino energies between
2-5 GeV. The selection efficiency for muon neutrino (antineutrino) interactions is found
to have a maximum of 96% (97%) and exceeds 90% (95%) efficiency for reconstructed
neutrino energies above 2 GeV. When considering all electron neutrino and antineutrino
interactions as signal (both those appearing from oscillations and those intrinsic to
the beam), a selection purity of 90% is achieved. These event selections are critical
to maximise the sensitivity of the experiment to CP-violating effects, key to further
understand the matter-antimatter asymmetry of the Universe.
In high-energy physics experiments, deep learning has also been explored for producing
fast simulations and physically-motivated manipulations of simulated images. Some of
those simulations, such as the light production and detection, are very computationally
expensive and require novel methods to produce the necessary samples while controlling
the varied underlying physics model parameters. To do so, we invented the model-assisted
generative adversarial network (MAGAN), first validated on simple generic case studies
and then successfully applied to the DUNE photon-detector simulation.
Moreover, we also developed graph neural networks for 3D-voxel classification of
ambiguities and optical crosstalk for a different particle physics experiment, most precisely
for the proposed SuperFGD. This novel 3D-granular plastic-scintillator neutrino detector
will be used to upgrade the near detector of the T2K neutrino oscillation experiment, and our method reports efficiencies and purities of 94-96% per event in the classification
of particle track voxels.
Due to the growth and complexity of deep neural networks, researchers have been
investigating techniques to train those networks in a more computationally-efficient way.
Many efforts have been made by the community to optimise deep-learning models by
parallelising or distributing their training computation across multiple devices. In this
thesis, we study an approach based on data locality for those neural networks that cannot
benefit from scaling their computation due to a significant bottleneck in the data I/O.
The research also includes a detailed study on the performance of deep neural networks
on hardware accelerator boards.[+][-]
Los métodos de aprendizaje profundo son cada vez más utilizados en numerosas aplicaciones
científicas e industriales hoy en día. Durante las dos últimas décadas, estas
técnicas se han empleado en la recolección, reconstrucción y análisis de la gran cantidad
Los métodos de aprendizaje profundo son cada vez más utilizados en numerosas aplicaciones
científicas e industriales hoy en día. Durante las dos últimas décadas, estas
técnicas se han empleado en la recolección, reconstrucción y análisis de la gran cantidad
de datos generados por experimentos de física de partículas. El tema principal de esta
tesis doctoral es el uso de estos modelos de aprendizaje profundo en experimentos de
física de neutrinos, en concreto en los experimentos de larga distancia DUNE y T2K. Los
neutrinos, partículas fundamentales neutras, de las más ligeras del Universo, pueden ser
clave para explicar algunas de las cuestiones todavía sin resolver en física fundamental.
Entre las diferentes contribuciones que esta tesis ha hecho a su estudio, cabe destacar el
desarrollo de un algoritmo basado en una red de neuronas convolucional para seleccionar
con gran eficiencia y precisión las interacciones de neutrinos electrónicos y muónicos en
el Deep Underground Neutrino Experiment (DUNE). La eficiencia de selección obtenida
para neutrinos (antineutrinos) electrónicos alcanza un máximo del 90% (94%) y supera el
85% (90%) para neutrinos con energías reconstruidas en el rango 2-5 GeV. La selección de
neutrinos (antineutrinos) muónicos tiene una eficiencia máxima del 96% (97%) y excede
el 90% (95%) para neutrinos con energías reconstruidas de más de 2 GeV. Considerando
como señal todas las interacciones de neutrinos y antineutrinos electrónicos (procedentes
tanto de oscilaciones como intrínsecos en el haz inicial), se logra una pureza en la selección
del 90%. Dichas selecciones de eventos son fundamentales para maximizar la sensibilidad
del experimento a los efectos de violación de CP, necesarios para entender la asimetría
entre materia y antimateria en el universo.
Por otro lado, también se ha explorado el uso de métodos de aprendizaje profundo
en otras tareas en experimentos de altas energías, como por ejemplo el desarrollo de
redes generativas adversarias para producir simulaciones rápidas y manipulaciones de las
imágenes simuladas. Tales simulaciones, como en el caso de la producción y detección de
luz procedente de las interacciones de neutrinos, son computacionalmente muy costosas
y requieren métodos nuevos para producir los datos necesarios controlando la variación
de los parámetros del modelo físico que los describe. Para ello, hemos propuesto un
nuevo tipo de red generativa adversaria asistida por modelos (MAGAN, del inglés modelassisted
generative adversarial networks), validando su funcionamiento en casos simples y genéricos primero, para después aplicarla con éxito a la simulación de detección de
fotones en DUNE.
Además, en esta tesis se ha estudiado también el uso de redes neuronales aplicadas a
grafos para la clasificación tridimensional de vóxeles evitando ambigüedades y diafonía
óptica en el SuperFGD, un nuevo detector de neutrinos de centelleo en plástico, granular en
tres dimensiones, que se utilizará en la futura mejora del detector cercano del experimento
de oscilación de neutrinos T2K, donde nuestro método alcanza eficiencias y purezas del
94-96% por evento en la clasificación de vóxeles producidos por trazas de partículas.
Debido a la expansión y complejidad de las redes neuronales profundas, se están
investigando diferentes técnicas para entrenar estas redes de manera más eficiente. La
comunidad ha llevado a cabo intentos para optimizar los modelos de aprendizaje profundo
mediante paralelización y distribución del cómputo de entrenamiento en múltiples dispositivos.
En esta tesis hemos estudiado esta optimización mediante un enfoque basado en la
localidad de datos para aquellas redes de neuronas que no pueden beneficiarse de escalar
su cómputo debido a un embotellamiento en la E/S de los datos. Nuestra investigación
también incluye un estudio detallado sobre el rendimiento de redes neuronales profundas
en placas de aceleración de hardware.[+][-]