L'apprendimento per rinforzo è un paradigma di machine learning in cui un "agente" (e.g. il mio coinquilino) autonomo impara a prendere decisioni ottimali interagendo con un ambiente (e.g. la lavastoviglie), per tentativi ed errori, al fine di massimizzare una ricompensa cumulativa a lungo termine (e.g. quanti piatti e pentole possiamo metterci dentro).
Invece in realtà, il mio coinquilino dopo anni, purtroppo, nonostante io gli abbia fatto vedere che ci sono disposizioni migliori di altre, mette sempre i piatti come se la lavastoviglie la utilizzasse solo lui e non ci fossero altre persone.
@Togata