Aprendizaje por refuerzo seguro para enseñar a un robot humanoide a caminar más rápido

Acera Bolaños, Daniel

Publication:
Aprendizaje por refuerzo seguro para enseñar a un robot humanoide a caminar más rápido

Identifiers

URI: http://hdl.handle.net/10016/17996

Files

memoriaPFC_Daniel_Acera_Bolanos.pdf (5.22 MB)

Publication date

2013-07-15

Defense date

2013-07-23

Authors

Acera Bolaños, Daniel

Advisors

García Polo, Francisco Javier

Fernández Rebollo, Fernando

Impact

Export

Abstract

Enseñar a un robot humanoide a caminar es un problema abierto y desafiante. Los comportamientos clásicos de caminar habitualmente requieren la puesta a punto de muchos parámetros de control (longitud de paso, velocidad, frecuencia, etc). Encontrar una configuración inicial o básica de estos parámetros no es complicado, pero optimizarla para un objetivo (por ejemplo, caminar rápido) no es tan sencillo, ya que puede hacer caer al robot humanoide provocando daños, en caso de una optimización incorrecta. En este proyecto, se propone usar técnicas de aprendizaje por refuerzo seguro para mejorar el comportamiento de caminar de un robot humanoide que permite caminar m as rápido que la configuración predefinida. El aprendizaje por refuerzo seguro asume la existencia de una política segura que permite aprender una nueva, la cual se representa con un enfoque basado en casos. Los algoritmos de aprendizaje por refuerzo seguro aplicados son PI-SRL (Policy Improvement throught Safe Reinforcement Learning) y PR-SRL (Policy Reuse for Safe Reinforcement Learning). ________
Teaching a humanoid robot to walk is an open and challenging problem. Classical walking behaviors usually require the tuning of many control parameters (step size, speed, frequency, etcetera). To find an initial or basic confi guration of such parameters could not be so hard, but optimizing them for some goal (for instance, to walk faster) is not easy because, when de ned uncorrectly, may produce the fall of the humanoid, and the consequent damages. In this paper we propose the use of Safe Reinforcement Learning for improving the walking behavior of a humanoid that permits the robot to walk faster than with a pre-de ned con figuration. Safe Reinforcement Learning assumes the existence of a safe policy that permits the humanoid to walk, and probabilistically reuse such policy to learn a new one, which is represented following a case based approach. The Safe Reinforcement Learning algorithms used are, PI-SRL (Policy Improvement throught Safe Reinforcement Learning) y PR-SRL (Policy Reuse for Safe Reinforcement Learning).

Keywords

Robótica, Robots humanoides, Aprendizaje, Inteligencia artificial, Algoritmos

Collections

Proyectos Fin de Carrera

Full item page

Publication:
Aprendizaje por refuerzo seguro para enseñar a un robot humanoide a caminar más rápido

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication: Aprendizaje por refuerzo seguro para enseñar a un robot humanoide a caminar más rápido

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication:
Aprendizaje por refuerzo seguro para enseñar a un robot humanoide a caminar más rápido