Publication:
Two steps reinforcement learning en robocup-soccer keepaway

Loading...
Thumbnail Image
Identifiers
Publication date
2009-06
Defense date
2009
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Hay una gran variedad de problemas en los que es necesario o muy deseable que un sistema aprenda de forma automática cómo debe interactuar con el entorno que le rodea para así, ser eficiente, eficaz y autónomo con respecto a la tarea que debe desempeñar. Por ejemplo, un problema de estas características puede ser un robot explorador que parta de una ubicación base y tenga que recolectar todas las muestras de mineral posibles en un terreno desconocido, teniendo que volver al punto base por el camino más corto antes de que sus baterías se agoten. Las técnicas de aprendizaje por refuerzo permiten a un agente o sistema aprender cual es la mejor acción a ejecutar para llevar a cabo un objetivo cuando se encuentra en una situación determinada. Estas técnicas utilizan un enfoque en el que el agente es informado por el entorno acerca de si la última acción realizada fue buena o mala para conseguir el objetivo deseado. Esta información es proporcionada por el entorno en forma de señal, denominada señal de refuerzo y es empleada por el agente para aprender de forma eficiente un comportamiento que le permita llevar a cabo su objetivo de la mejor forma posible. Sin embargo, las técnicas de aprendizaje por refuerzo no son aplicables cuando el número de situaciones posibles o el número de acciones a tomar es excesivamente grande. En esos casos es necesario buscar alternativas de representación del conjunto de situaciones y acciones que simplifiquen los conjuntos y generalicen sus propiedades. En el presente documento se aborda el problema de la búsqueda de discretizaciones del espacio de estados que permitan una posterior aplicación de técnicas de aprendizaje por refuerzo sobre dichas discretizaciones. Se analizan y comparan distintas técnicas y se realiza una experimentación centrada en la técnica Two Steps Reinforcement Learning. El dominio utilizado como banco de pruebas de los experimentos realizados es el Robocup-soccer keepaway.
Description
Keywords
Inteligencia artificial, Robótica, Aprendizaje automático
Bibliographic citation