Publication:
Multimodal perception for autonomous driving

dc.contributor.advisorEscalera Hueso, Arturo de la
dc.contributor.advisorGarcía Fernández, Fernando
dc.contributor.authorBeltrán de la Cita, Jorge
dc.contributor.departamentoUC3M. Departamento de Ingeniería de Sistemas y Automáticaes
dc.contributor.tutorEscalera Hueso, Arturo de la
dc.date.accessioned2022-06-03T12:32:53Z
dc.date.available2022-06-03T12:32:53Z
dc.date.issued2022-01
dc.date.submitted2022-04-01
dc.descriptionMención Internacional en el título de doctor
dc.description.abstractAutonomous driving is set to play an important role among intelligent transportation systems in the coming decades. The advantages of its large-scale implementation –reduced accidents, shorter commuting times, or higher fuel efficiency– have made its development a priority for academia and industry. However, there is still a long way to go to achieve full self-driving vehicles, capable of dealing with any scenario without human intervention. To this end, advances in control, navigation and, especially, environment perception technologies are yet required. In particular, the detection of other road users that may interfere with the vehicle’s trajectory is a key element, since it allows to model the current traffic situation and, thus, to make decisions accordingly. The objective of this thesis is to provide solutions to some of the main challenges of on-board perception systems, such as extrinsic calibration of sensors, object detection, and deployment on real platforms. First, a calibration method for obtaining the relative transformation between pairs of sensors is introduced, eliminating the complex manual adjustment of these parameters. The algorithm makes use of an original calibration pattern and supports LiDARs, and monocular and stereo cameras. Second, different deep learning models for 3D object detection using LiDAR data in its bird’s eye view projection are presented. Through a novel encoding, the use of architectures tailored to image detection is proposed to process the 3D information of point clouds in real time. Furthermore, the effectiveness of using this projection together with image features is analyzed. Finally, a method to mitigate the accuracy drop of LiDARbased detection networks when deployed in ad-hoc configurations is introduced. For this purpose, the simulation of virtual signals mimicking the specifications of the desired real device is used to generate new annotated datasets that can be used to train the models. The performance of the proposed methods is evaluated against other existing alternatives using reference benchmarks in the field of computer vision (KITTI and nuScenes) and through experiments in open traffic with an automated vehicle. The results obtained demonstrate the relevance of the presented work and its suitability for commercial use.en
dc.description.abstractLa conducción autónoma está llamada a jugar un papel importante en los sistemas inteligentes de transporte de las próximas décadas. Las ventajas de su implementación a larga escala –disminución de accidentes, reducción del tiempo de trayecto, u optimización del consumo– han convertido su desarrollo en una prioridad para la academia y la industria. Sin embargo, todavía hay un largo camino por delante hasta alcanzar una automatización total, capaz de enfrentarse a cualquier escenario sin intervención humana. Para ello, aún se requieren avances en las tecnologías de control, navegación y, especialmente, percepción del entorno. Concretamente, la detección de otros usuarios de la carretera que puedan interferir en la trayectoria del vehículo es una pieza fundamental para conseguirlo, puesto que permite modelar el estado actual del tráfico y tomar decisiones en consecuencia. El objetivo de esta tesis es aportar soluciones a algunos de los principales retos de los sistemas de percepción embarcados, como la calibración extrínseca de los sensores, la detección de objetos, y su despliegue en plataformas reales. En primer lugar, se introduce un método para la obtención de la transformación relativa entre pares de sensores, eliminando el complejo ajuste manual de estos parámetros. El algoritmo hace uso de un patrón de calibración propio y da soporte a cámaras monoculares, estéreo, y LiDAR. En segundo lugar, se presentan diferentes modelos de aprendizaje profundo para la detección de objectos en 3D utilizando datos de escáneres LiDAR en su proyección en vista de pájaro. A través de una nueva codificación, se propone la utilización de arquitecturas de detección en imagen para procesar en tiempo real la información tridimensional de las nubes de puntos. Además, se analiza la efectividad del uso de esta proyección junto con características procedentes de imágenes. Por último, se introduce un método para mitigar la pérdida de precisión de las redes de detección basadas en LiDAR cuando son desplegadas en configuraciones ad-hoc. Para ello, se plantea la simulación de señales virtuales con las características del modelo real que se quiere utilizar, generando así nuevos conjuntos anotados para entrenar los modelos. El rendimiento de los métodos propuestos es evaluado frente a otras alternativas existentes haciendo uso de bases de datos de referencia en el campo de la visión por computador (KITTI y nuScenes), y mediante experimentos en tráfico abierto empleando un vehículo automatizado. Los resultados obtenidos demuestran la relevancia de los trabajos presentados y su viabilidad para un uso comercial.es
dc.description.degreePrograma de Doctorado en Ingeniería Eléctrica, Electrónica y Automática por la Universidad Carlos III de Madrides
dc.description.responsabilityPresidente: Jesús García Herrero.- Secretario: Ignacio Parra Alonso.- Vocal: Gustavo Adolfo Peláez Coronadoes
dc.identifier.urihttps://hdl.handle.net/10016/34990
dc.language.isoengen
dc.relation.ispartofhttps://arxiv.org/abs/2101.04431
dc.relation.ispartofhttps://doi.org/10.1109/ACCESS.2021.3131389
dc.relation.ispartofhttps://doi.org/10.1109/MITS.2021.3068067
dc.relation.ispartofhttps://doi.org/10.1109/ITSC45102.2020.9294494
dc.relation.ispartofhttps://doi.org/10.1109/ITSC45102.2020.9294293
dc.relation.ispartofhttps://doi.org/10.1109/ITSC.2019.8917176
dc.relation.ispartofhttps://doi.org/10.1109/ITSC.2018.8569311
dc.relation.ispartofhttps://doi.org/10.1109/ITSC.2017.8317829
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 España*
dc.rights.accessRightsopen accessen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.subject.ecienciaRobótica e Informática Industriales
dc.subject.other3D object detectionen
dc.subject.otherComputer visionen
dc.subject.otherMulti-modal fusionen
dc.subject.otherConvolutional neural networksen
dc.subject.otherAutonomous drivingen
dc.subject.otherDetección de objetos 3Des
dc.subject.otherVisión por computadores
dc.subject.otherFusión multimodales
dc.subject.otherRedes convolucionaleses
dc.subject.otherConducción autónomaes
dc.titleMultimodal perception for autonomous drivingen
dc.typedoctoral thesis*
dspace.entity.typePublication
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
tesis_jorge_beltran_de-la-cita_2022.pdf
Size:
4.24 MB
Format:
Adobe Portable Document Format
Description:
Collections