RT Dissertation/Thesis T1 Convolutional neural networks for joint object detection and pose estimation in traffic scenes A1 Guindel Gómez, Carlos AB Few any longer question that autonomous vehicles will be a keyelement of transportation in the coming decades. Reliable perceptionof the surroundings of the vehicle is today one of the remainingtechnical challenges that must be addressed to ensure safe autonomousnavigation, especially in crowded environments. This functionalityusually relies on onboard sensors, which provide data that must beappropriately processed.Among the different tasks assigned to the perception suite of anautomated vehicle, the detection of other road users that can potentiallyinterfere with the trajectory of the vehicle is particularly critical.However, the identification of agents in sensor data is only the firststep. Planning and control modules down the pipeline demand trustworthyinformation about how the objects are arranged in space. Inparticular, their orientation and location on the road plane are usuallyattributes of utmost importance to build a purposeful model of theenvironment.This thesis aims to provide close-to-market solutions to these issuestaking advantage of the dramatic breakthrough seen in deep neuralnetworks in the past decade. The methods proposed in this thesisare built on top of a popular detection framework, Faster R-CNN,which features high detection accuracy at near real-time rates. Someproposals to enhance the performance of the algorithm in imagesobtained from onboard cameras are introduced and discussed.One of the central contributions of the thesis is the extension of theFaster R-CNN framework to estimate the orientation of the detectedobjects based exclusively on appearance information, which makesthe method robust against the different sources of error present intraffic environments. As a natural next step, two algorithms exploitingthis functionality to perform 3D object localization are proposed. Asa result, the combination of the methods described throughout thisthesis leads to a procedure able to provide situational awareness ofthe potential hazards in the surroundings of the vehicle.All the proposed methods are analyzed and validated throughsystematic experimentation using a well-recognized public dataset (theKITTI Vision Benchmark Suite), where notable results were obtained.The viability of the implementation of the solutions in a real vehicle isalso discussed. AB Pocos cuestionan ya que los vehículos autónomos serán un elementoclave del transporte en las próximas décadas. La percepción fiabledel entorno del vehículo es, hoy en día, uno de los retos técnicos quehay que afrontar para garantizar una navegación autónoma segura,especialmente en entornos con muchos agentes. Esta funcionalidad sebasa, normalmente, en sensores embarcados, que proporcionan datosque deben ser procesados de forma adecuada.Entre las diferentes tareas asignadas al sistema de percepción deun vehículo automatizado, la detección de otros usuarios de la víaque puedan interferir potencialmente con la trayectoria del vehículo esparticularmente crítica. Sin embargo, la identificación de los agentesen los datos de los sensores es sólo el primer paso. Los módulos deplanificación y control del vehículo exigen información fiable sobre ladisposición de los objetos en el espacio. En particular, su orientacióny ubicación en el plano de la carretera suelen ser atributos de sumaimportancia para construir un modelo del entorno significativo.Esta tesis tiene como objetivo proporcionar soluciones comercialmenteviables para estos problemas, aprovechando el impresionanteavance que han experimentado las redes neuronales profundas enla última década. Los métodos propuestos en esta tesis se basan enun marco de detección popular, Faster R-CNN, que ofrece una altaprecisión de detección a velocidades cercanas al tiempo real. Así, sepresentan y discuten algunas propuestas para mejorar el rendimientodel algoritmo en las imágenes obtenidas de las cámaras a bordo.Una de las aportaciones centrales de la tesis es la ampliación de laarquitectura Faster R-CNN para estimar la orientación de los objetosdetectados basándose exclusivamente en la información de apariencia,lo que hace que el método sea robusto frente a las diferentes fuentes deerror presentes en los entornos de tráfico. Como siguente paso natural,se proponen dos algoritmos que aprovechan esta funcionalidad pararealizar la localización de objetos en 3D. Como resultado, la combinaciónde los métodos descritos a lo largo de esta tesis permite construirun procedimiento capaz de proporcionar conciencia situacional de lospeligros potenciales en los alrededores del vehículo.Todos los métodos propuestos son analizados y validados medianteexperimentación sistemática utilizando una reconocida base de datospública (KITTI Vision Benchmark Suite), donde se han obtenido resultadosnotables. También se discute la viabilidad de la implementaciónde las soluciones en un vehículo real. YR 2019 FD 2019-12 LK https://hdl.handle.net/10016/30478 UL https://hdl.handle.net/10016/30478 LA eng NO Mención Internacional en el título de doctor DS e-Archivo RD 1 may. 2024