RT Dissertation/Thesis T1 Aprendizaje por refuerzo en espacios de estados continuos A1 Fernández Rebollo, Fernando AB El aprendizaje por refuerzo es un modelo de aprendizaje que permite implementar comportamientos inteligentes de forma automática. La mayor parte de la teoría del aprendizaje por refuerzo tiene su fundamento en la programación dinámica, y por tanto, en lo que se denominan funciones de valor. Sin embargo, la implementación tradicional de estas funciones en forma tabular no es práctica cuando el espacio de estados es muy grande, o incluso infinito. Cuando se produce esta situación, se deben aplicar métodos de generalización que permitan extrapolar la experiencia adquirida para un conjunto limitado de estados, a la totalidad del espacio. Existen dos aproximaciones básicas para resolver este problema. Por un lado, están aquellas técnicas que se basan en obtener una discretización adecuada del espacio de estados. Por otro lado, están los métodos basados en implementar las funciones de valor con algún método supervisado de aproximación de funciones, como, por ejemplo, una red de neuronas. En esta tesis doctoral se pretende desarrollar métodos de aprendizaje por refuerzo que sean aplicables en dominios con espacios de estados continuos, partiendo de las dos aproximaciones planteadas anteriormente, fundiendo las ventajas de una y otra en un método eficaz y eficiente que permita que el aprendizaje sea un proceso totalmente automático. AB Reinforcement Learning is a technique that aliows to implement intelligent behaviours automatically without the need of introducing knowledgeor modeis about the domain. Most of the reinforcement learning theory isbased on dynamic programming, and hence, on value functions. These functions provide information about how good it is, in order to solve a definedtask, to be in a given situation in the dornain, typically narned state, oreven how good it is to execute a defined action if the system is in a givenstate. These functions, typically implernented using look-up tables, are usedto represent the action policy that must guide the behaviour of the system.However, the traditional implementation of these functions as look-up tablesis not practical when the state space is very large, or even infinite. Whenone of these situations appears, generalization methods must be applied inorder to extrapolate the acquired experience for a limited set of states, to thewhole space, so optirnal behaviours can be achieved, even when the wholedomain has not been explored.Two main approaches can be found in the literature. Qn the one hand,there are methods based on learning an adequate state space discretization,so the continuous state space is mapped to a finite and reduced one. Qnthe other hand, methods based oil irnplementing the value functions withsorne supervised learning technique for function approximation, for instance,a neural network, can be found. This dissertation tries to develop reinforcernent learning methods that can be applied in domains with a continuousstate space. The start point is given by the two approaches aboye, and ittries to j oin the advantages of one and another in an efficient and effectivemethod that aliows the learning process be a fully automatic process wherethe designer has to introduce the less possible arnount of information aboutthe task to solve. YR 2002 FD 2002 LK https://hdl.handle.net/10016/569 UL https://hdl.handle.net/10016/569 LA spa LA spa DS e-Archivo RD 24 may. 2024