El aprendizaje por refuerzo es la utilización de medios que permiten que una conducta que se considera adecuada se afiance, mientras que las no deseadas se eliminen o disminuyan.
A continuar, se presenta un ejemplo sencillo sobre cómo funciona el aprendizaje por refuerzo.
En primer lugar, hay que tener en cuenta que en el aprendizaje reforzado hay 6 variables principales;
Ambiente: Es el entorno donde el agente se mueve e interactúa. Contiene todos los elementos que constituye el estado. Establece las reglas y las limitaciones del sitio.
Estado: Es la situación actual del ambiente, teniendo en cuenta todos sus elementos y variables. En pocas palabras, es un indicador actual del ambiente.
Agente: Es la máquina o el modelo al cual se le aplica inteligencia por refuerzo. Es el autor del escenario y el que toma las decisiones por autonomía propia.
Acciones: Son las posibles decisiones que puede tomar el agente en diversas circunstancias.
Recompensas: Son los premios que se le otorgan al agente por acertar o tomar el camino correcto.
Penalizaciones: Son los castigos que se le otorgan al agente por fallar o tomar el camino incorrecto.
El Machine Learning es una disciplina del campo de la Inteligencia Artificial que, a través de algoritmos, dota a los ordenadores de la capacidad de identificar patrones en datos masivos y elaborar predicciones (análisis predictivo). Este aprendizaje permite a los computadores realizar tareas específicas de forma autónoma, es decir, sin necesidad de ser programados.