Robots capaces de aprender y adaptarse al entorno a partir de sus propias experiencias

  1. Quintía Vidal, Pablo
Dirigida por:
  1. Roberto Iglesias Rodríguez Director
  2. Carlos V. Regueiro Codirector/a

Universidad de defensa: Universidade de Santiago de Compostela

Fecha de defensa: 18 de julio de 2013

Tribunal:
  1. Senén Barro Presidente
  2. Eva Cernadas García Secretaria
  3. Felipe Espinosa Zapata Vocal
  4. Pablo Bustos García de Castro Vocal
  5. Francisco Sandoval Hernández Vocal
Departamento:
  1. Departamento de Electrónica y Computación

Tipo: Tesis

Resumen

Entre los objetivos reconocidos en la robótica actual destaca la necesidad de disponer de robots adaptables, capaces de aprender del usuario y de la propia experiencia. Esta adaptación se debe extender todo el tiempo de vida del robot, los errores y aciertos del robot deben permitir que éste pueda modificar su comportamiento futuro. En este sentido, el paradigma de aprendizaje por refuerzo resulta muy prometedor en la medida en que permite que un robot aprenda sin más información que un refuerzo extrínseco que indica cuando las acciones realizadas son correctas o no. Los algoritmos tradicionales de aprendizaje por refuerzo se limitan a comportamientos reactivos simples y rara vez se aplican al aprendizaje directo en robots moviéndose en entornos reales. De hecho, el aprendizaje por refuerzo suele ser lento y requerir un proceso de exploración costoso. Por otra parte, el tiempo de aprendizaje se incrementa de forma exponencial con el número de estados (situaciones significativamente diferentes) que puede encontrar el robot. Con el objetivo de superar estas limitaciones en esta tesis se abordarán cuatro grandes objetivos: a) Algoritmos más interpretables: Los algoritmos clásicos de aprendizaje por refuerzo intentan predecir el refuerzo futuro que el robot va a recibir. Esta información es difícilmente interpretable, lo que hace difícil corroborar si el proceso de aprendizaje se está llevando a cabo de forma correcta. Desarrollaremos un nuevo algoritmo, I_Tbf, capaz de aprender a predecir ¿cuando el robot va a cometer un fallo¿. La discrepancia entre lo que el sistema predice y lo que realmente sucede nos permite detectar problemas y corregirlos durante el propio proceso de aprendizaje. b) Aprendizaje simultáneo de percepción y acción: Se creará de un sistema capaz de aprender al mismo tiempo el espacio de estados y la acción a ejecutar en cada uno de estos estados. Partiendo de nuestro algoritmo I_Tbf, el sistema iterará la política de control tratando de maximizar el tiempo a fallo. El espacio de estados se creará de forma dinámica: partiendo de un espacio de estados vacío se añaden nuevos estados a medida que el robot encuentra nuevas situaciones que no ha visto antes. La creación dinámica del espacio de estados evita el proceso de creación y evaluación de representaciones de estados ad hoc. Para lograr la generación dinámica de estados se recurrirá a la Teoría de Resonancia Adaptativa (ART) adaptándola a nuestro problema. c) Reducción de tiempo de aprendizaje a través de la creación de comités de aprendedores: Para acelerar los procesos de aprendizaje resulta conveniente recurrir a estrategias habituales en el campo de las redes neuronales artificiales dirigidas a evitar el ¿sobre-aprendizaje¿ y la falta de generalización. Por este motivo, el uso de comités de ¿aprendedores¿ que, mediante diferentes estrategias de voto ponderado, sean capaces de seleccionar la acción que debe ejecutar el robot en cada instante, permitirá acelerar el proceso de aprendizaje mientras se mantiene una buena generalización. Gracias al incremento de estabilidad proporcionado por el comité el sistema será capaz de aprender de manera continua, sin que el comportamiento del robot sufra grandes inestabilidades. d) Determinación de la relevancia sensorial: Muchas de las entradas sensoriales proporcionadas por los modernos sensores de alta resolución son irrelevantes para la tarea que el robot está intentando aprender. Estas dimensiones irrelevantes pueden provocar errores en las estrategias de clustering. Esto es algo conocido como la maldición de la dimensionalidad. En este proyecto investigaremos el uso de criteros estadísticos basados en la teoría de la información, y la información mutua, para determinar, de forma dinámica, el subconjunto de sensores que es realmente relevante para lo que el robot quiere aprender.