L'apprendimento per rinforzo è un paradigma di machine learning in cui un "agente" (e.g. il mio coinquilino) autonomo impara a prendere decisioni ottimali interagendo con un ambiente (e.g. la lavastoviglie), per tentativi ed errori, al fine di massimizzare una ricompensa cumulativa a lungo termine (e.g. quanti piatti e pentole possiamo metterci dentro).

Invece in realtà, il mio coinquilino dopo anni, purtroppo, nonostante io gli abbia fatto vedere che ci sono disposizioni migliori di altre, mette sempre i piatti come se la lavastoviglie la utilizzasse solo lui e non ci fossero altre persone.
8
2 feb 2026 alle 21:52

@Togata

badge

@Orengan

badge OP

@icecube

❄️

@Orengan

badge OP