Aprendizaje por refuerzo

 


El  aprendizaje por refuerzo es la utilización de medios que permiten que una conducta que se considera adecuada se afiance, mientras que las no deseadas se eliminen o disminuyan.

A continuar, se presenta un ejemplo sencillo sobre cómo funciona el aprendizaje por refuerzo.

En primer lugar, hay que tener en cuenta que en el aprendizaje reforzado hay 6 variables principales;

  1. Ambiente: Es el entorno donde el agente se mueve e interactúa. Contiene todos los elementos que constituye el estado. Establece las reglas y las limitaciones del sitio.

  2. Estado: Es la situación actual del ambiente, teniendo en cuenta todos sus elementos y variables. En pocas palabras, es un indicador actual del ambiente.

  3. Agente: Es la máquina o el modelo al cual se le aplica inteligencia por refuerzo. Es el autor del escenario y el que toma las decisiones por autonomía propia.

  4. Acciones: Son las posibles decisiones que puede tomar el agente en diversas circunstancias.

  5. Recompensas: Son los premios que se le otorgan al agente por acertar o tomar el camino correcto.

  6. Penalizaciones: Son los castigos que se le otorgan al agente por fallar o tomar el camino incorrecto.



El Machine Learning es una disciplina del campo de la Inteligencia Artificial que, a través de algoritmos, dota a los ordenadores de la capacidad de identificar patrones en datos masivos y elaborar predicciones (análisis predictivo). Este aprendizaje permite a los computadores realizar tareas específicas de forma autónoma, es decir, sin necesidad de ser programados.


 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Affiliate Network Reviews