RT Generic T1 Aprendizaje por refuerzo seguro para enseñar a un robot humanoide a caminar más rápido A1 Acera Bolaños, Daniel AB Enseñar a un robot humanoide a caminar es un problema abierto ydesafiante. Los comportamientos clásicos de caminar habitualmente requierenla puesta a punto de muchos parámetros de control (longitud de paso,velocidad, frecuencia, etc). Encontrar una configuración inicial o básica deestos parámetros no es complicado, pero optimizarla para un objetivo (porejemplo, caminar rápido) no es tan sencillo, ya que puede hacer caer al robothumanoide provocando daños, en caso de una optimización incorrecta.En este proyecto, se propone usar técnicas de aprendizaje por refuerzo seguropara mejorar el comportamiento de caminar de un robot humanoideque permite caminar m as rápido que la configuración predefinida. El aprendizajepor refuerzo seguro asume la existencia de una política segura quepermite aprender una nueva, la cual se representa con un enfoque basadoen casos. Los algoritmos de aprendizaje por refuerzo seguro aplicadosson PI-SRL (Policy Improvement throught Safe Reinforcement Learning) yPR-SRL (Policy Reuse for Safe Reinforcement Learning). ________ AB Teaching a humanoid robot to walk is an open and challenging problem.Classical walking behaviors usually require the tuning of many control parameters(step size, speed, frequency, etcetera). To find an initial or basicconfi guration of such parameters could not be so hard, but optimizing themfor some goal (for instance, to walk faster) is not easy because, when de neduncorrectly, may produce the fall of the humanoid, and the consequent damages.In this paper we propose the use of Safe Reinforcement Learning forimproving the walking behavior of a humanoid that permits the robot to walkfaster than with a pre-de ned con figuration. Safe Reinforcement Learning assumesthe existence of a safe policy that permits the humanoid to walk, andprobabilistically reuse such policy to learn a new one, which is representedfollowing a case based approach. The Safe Reinforcement Learning algorithmsused are, PI-SRL (Policy Improvement throught Safe ReinforcementLearning) y PR-SRL (Policy Reuse for Safe Reinforcement Learning). YR 2013 FD 2013-07-15 LK https://hdl.handle.net/10016/17996 UL https://hdl.handle.net/10016/17996 LA spa DS e-Archivo RD 1 may. 2024