Dans l'apprentissage par renforcement, l'IA recoit une demande (input) et choisit une action (ouput), puis reçoit une récompense numérique qui mesure la qualité immédiate de cette action ; son but est de maximiser la somme de ces récompenses au fil du temps.
Les connexions de neurones ayant contribué à un bon résultat sont renforcées par l'attribution d'un "poids" élevé. Les connexions menant à un mauvais résultat sont affaiblies.
Répétée des milliers de fois, cette mise à jour façonne progressivement une stratégie ; l'ensemble final des poids constitue alors la « mémoire » de l'IA, c'est-à-dire la connaissance qu'elle a acquise pour choisir les meilleures actions à l'avenir.