Publication:
Convolutional neural networks for joint object detection and pose estimation in traffic scenes

Loading...
Thumbnail Image
Identifiers
Publication date
2019-12
Defense date
2019-12-13
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Few any longer question that autonomous vehicles will be a key element of transportation in the coming decades. Reliable perception of the surroundings of the vehicle is today one of the remaining technical challenges that must be addressed to ensure safe autonomous navigation, especially in crowded environments. This functionality usually relies on onboard sensors, which provide data that must be appropriately processed. Among the different tasks assigned to the perception suite of an automated vehicle, the detection of other road users that can potentially interfere with the trajectory of the vehicle is particularly critical. However, the identification of agents in sensor data is only the first step. Planning and control modules down the pipeline demand trustworthy information about how the objects are arranged in space. In particular, their orientation and location on the road plane are usually attributes of utmost importance to build a purposeful model of the environment. This thesis aims to provide close-to-market solutions to these issues taking advantage of the dramatic breakthrough seen in deep neural networks in the past decade. The methods proposed in this thesis are built on top of a popular detection framework, Faster R-CNN, which features high detection accuracy at near real-time rates. Some proposals to enhance the performance of the algorithm in images obtained from onboard cameras are introduced and discussed. One of the central contributions of the thesis is the extension of the Faster R-CNN framework to estimate the orientation of the detected objects based exclusively on appearance information, which makes the method robust against the different sources of error present in traffic environments. As a natural next step, two algorithms exploiting this functionality to perform 3D object localization are proposed. As a result, the combination of the methods described throughout this thesis leads to a procedure able to provide situational awareness of the potential hazards in the surroundings of the vehicle. All the proposed methods are analyzed and validated through systematic experimentation using a well-recognized public dataset (the KITTI Vision Benchmark Suite), where notable results were obtained. The viability of the implementation of the solutions in a real vehicle is also discussed.
Pocos cuestionan ya que los vehículos autónomos serán un elemento clave del transporte en las próximas décadas. La percepción fiable del entorno del vehículo es, hoy en día, uno de los retos técnicos que hay que afrontar para garantizar una navegación autónoma segura, especialmente en entornos con muchos agentes. Esta funcionalidad se basa, normalmente, en sensores embarcados, que proporcionan datos que deben ser procesados de forma adecuada. Entre las diferentes tareas asignadas al sistema de percepción de un vehículo automatizado, la detección de otros usuarios de la vía que puedan interferir potencialmente con la trayectoria del vehículo es particularmente crítica. Sin embargo, la identificación de los agentes en los datos de los sensores es sólo el primer paso. Los módulos de planificación y control del vehículo exigen información fiable sobre la disposición de los objetos en el espacio. En particular, su orientación y ubicación en el plano de la carretera suelen ser atributos de suma importancia para construir un modelo del entorno significativo. Esta tesis tiene como objetivo proporcionar soluciones comercialmente viables para estos problemas, aprovechando el impresionante avance que han experimentado las redes neuronales profundas en la última década. Los métodos propuestos en esta tesis se basan en un marco de detección popular, Faster R-CNN, que ofrece una alta precisión de detección a velocidades cercanas al tiempo real. Así, se presentan y discuten algunas propuestas para mejorar el rendimiento del algoritmo en las imágenes obtenidas de las cámaras a bordo. Una de las aportaciones centrales de la tesis es la ampliación de la arquitectura Faster R-CNN para estimar la orientación de los objetos detectados basándose exclusivamente en la información de apariencia, lo que hace que el método sea robusto frente a las diferentes fuentes de error presentes en los entornos de tráfico. Como siguente paso natural, se proponen dos algoritmos que aprovechan esta funcionalidad para realizar la localización de objetos en 3D. Como resultado, la combinación de los métodos descritos a lo largo de esta tesis permite construir un procedimiento capaz de proporcionar conciencia situacional de los peligros potenciales en los alrededores del vehículo. Todos los métodos propuestos son analizados y validados mediante experimentación sistemática utilizando una reconocida base de datos pública (KITTI Vision Benchmark Suite), donde se han obtenido resultados notables. También se discute la viabilidad de la implementación de las soluciones en un vehículo real.
Description
Mención Internacional en el título de doctor
Keywords
Object detection, Computer vision, Convolutional neural networks, Autonomous driving systems, Detección de objetos, Visión por computador, Redes neuronales convolucionales, Sistemas de conducción autónoma
Bibliographic citation
Collections