L'apprentissage par renforcement (en anglais : Reinforcement Learning) désigne l’ensemble des méthodes qui permettent à un agent d’apprendre à choisir quelle action prendre dans un environnement, de façon autonome, en recevant des récompenses ou des pénalités en fonction de ses actions.
Au travers de son expérience, l’agent cherche à trouver la stratégie décisionnelle optimale qui puisse lui permettre de maximiser les récompenses accumulées au cours du temps.
Par exemple, dans le jeu de Pac-Man, le but de l’agent (Pac-Man) est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l’environnement interactif de l’agent. Pac-Man reçoit une récompense pour avoir mangé de la nourriture et une punition s’il est tué par le fantôme (il perd le jeu).