Un año programando.: Dia 5

Hoy continuaré hablando sobre el "reinforcement learning", introduciendo conceptos como Markov Decission Process (MDP), Markov Process y alguno más.

La última vez hablamos sobre la ecuación de Bellman, que asignaba valores a los distintos estados en función de lo positivo que fuera el estado destino. Hoy comenzaremos con algunas definiciones:

-Markov Process: En un proceso de Markov, la probabilidad de comportamiento futuro, esta totalmente definida si se conoce el estado actual, es decir, los estados futuros no dependen de acciones pasadas si no del estado en el que te encuentras y de la acciones que puedes tomar.

-Markov Decission Process (MDP): Define un entorno con aleatoriedad, en el que puede que las cosas no sucedan como se espera. Es un proceso de control estocástico de tiempo discreto que proporciona un marco matemático para modelar la toma de decisiones en situaciones donde los resultados son en parte aleatorios.

Si utilizamos el MDP en reinforcement learning, habrá que modificar la ecuación de Bellman ya que ahora habrá varias posibles decisiones que tomar, con sus porcentajes de probabilidad.

Arriba muestro la ecuación de Bellman usada previamente, sin incluir MDP y abajo la ecuación modificada.

Como podemos ver, hemos modificado la segunda parte de la fórmula, en la que antes se incluía solamente un término, al escoger el siguiente estado con mejor "puntuación". Ahora obtendremos distintos valores para los estados de nuestro sistema, al tener en cuenta todos los posibles estados futuros.

Así quedarían los valores de los estados ahora, como podemos ver los estados cercanos al fuego se han visto muy penalizados ya que llegar a ese estado implica obtener un refuerzo negativo (-1) y ahora tenemos la posibilidad de terminar en ese estado porque utilizamos MDP.

Me gustaria tambien hablar sobre dos conceptos que he aprendido a diferenciar y que se repiten bastante en el curso de IA, estos son:

-Plan: Conjunto de acciones que deben ser seguidas al pie de la letra para llegar a un estado final desde un estado concreto. En caso de que algo vaya mal, se deberá volver a planear.

-Policy: Conjunto de todos los planes posibles que te permiten llegar a un estado final desde un estado concreto, por lo que si fallas no debes volver a planearlo si no que ya sabes que acciones debes tomar.

Las policys son mucho más potentes que los planes ya que se desenvuelven mejor cuando las cosas no salen como estaban planeadas, te proveen de una estrategia para alcanzar tu meta en vez de marcarte unos pasos a seguir sin poder equivocarte si quieres llegar a la meta como hacen los planes.

Y bueno, con esto termino por hoy.

Un saludo!!

Un año programando.

Visualizaciones

sábado, 16 de marzo de 2019

Dia 5 - Noche

No hay comentarios:

Publicar un comentario