Un año programando.: Dia 6

Hoy ampliaremos el tema de reinforcement learning introduciendo el concepto de Q-learning.

Previamente utilizábamos la ecuación de Bellman para calcular el próximo estado en función del estado actual y el valor de los estados futuros. Ahora calcularemos el valor asociado a la realización de cada acción individual ya que esta es la forma en la que el "agente" se debe desenvolver, no mirando los estados sin no las posibles acciones que puede llevar a cabo.

La fórmula resultante de aplicar el Q-learning sería la mostrada más arriba, en la que se expresa el valor asociado a realizar una acción en función de la recompensa por ir al siguiente estado, mas el sumatorio del valor máximo para el siguiente conjunto de acciones posibles multiplicado por los porcentajes de tomar cada acción ya que estamos en un entorno estocástico (con aleatoriedad), todo esto multiplicado por lambda que es el factor de descuento ( Valor entre 0 y 1 que indica cuan importante es el largo plazo, siendo 0 sin importancia y 1 toda la importancia). Como podemos observar, estamos ante u algoritmo iterativo en función de Q que representa acciones individuales.

A partir de ahora trabajaremos con esta fórmula, que es una representación más cercana al objetivo al que queremos llegar para poder aplicar el reinforcement learning.

Esto marca las bases del Q-learning, próximamente espero poder explicarlo más en profundidad pero ahora no tengo los conocimientos necesarios. Día a día iré ampliandolos y plasmándolos aquí, así podremos ver el progreso que sigo y por qué no, podréis aprender conmigo.

Un saludo!

Un año programando.

Visualizaciones

domingo, 17 de marzo de 2019

Dia 6 - Noche

No hay comentarios:

Publicar un comentario