Apprendimento per rinforzo

L'apprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi.

L'apprendimento per rinforzo è uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato. A differenza degli altri due, questo paradigma si occupa di problemi di decisioni sequenziali, in cui l'azione da compiere dipende dallo stato attuale del sistema e ne determina quello futuro.

La qualità di un'azione è data da un valore numerico di "ricompensa", ispirata al concetto di rinforzo, che ha lo scopo di incoraggiare comportamenti corretti dell'agente. Questo tipo di apprendimento è solitamente modellizzato tramite i processi decisionali di Markov[1] e può essere effettuato con diverse tipologie di algoritmi, classificabili in base all'utilizzo di un modello che descriva l'ambiente, alle modalità di raccolta dell'esperienza (in prima persona o da parte di terzi), al tipo di rappresentazione degli stati del sistema e delle azioni da compiere (discreti o continui).

Descrizione

Questa tecnica si basa sul presupposto che all'interno di un sistema si possano predisporre[2]:

  1. un meccanismo logico A in grado di scegliere degli output sulla base degli input ricevuti.
  2. un meccanismo logico B in grado di valutare l'efficacia degli output rispetto ad un preciso parametro di riferimento.
  3. un meccanismo logico C capace di cambiare il meccanismo A per massimizzare la valutazione di efficacia effettuata da B.

Il modo in cui questi meccanismi dovrebbero collaborare è descritto dai seguenti punti:

  • Se il meccanismo A effettua una scelta efficace allora il meccanismo B manda in output un premio proporzionale all'efficacia della scelta di A.
  • Se il meccanismo A effettua una scelta inefficace allora il meccanismo B manda in output una penalità proporzionale all'inefficacia della scelta di A.
  • Il meccanismo C, osservando l'agire di A e B, cerca di modificare la funzione matematica che regola il comportamento di A in modo da massimizzare la quantità e la qualità dei "premi".

I meccanismi B e C sono quelli che vanno a costituire il metodo di rinforzo proprio di questa metodica di apprendimento.

Per attuare i meccanismi ed i comportamenti descritti nelle righe precedenti, dal punto di vista logico, si necessita delle seguenti componenti:

  • Insieme di Input: rappresenta i possibili input che il sistema può ricevere (servono per determinare lo stato del sistema).
  • Funzione valore di stato: questa funzione associa un parametro di valutazione ad ogni stato del sistema.
  • Funzione valore di azione: questa funzione associa un parametro di valutazione ad ogni possibile coppia stato-azione.
  • Tecnica di rinforzo: consiste in una funzione di rinforzo che, a seconda delle prestazioni attuali e dell'esperienza passata, fornisce delle direttive con cui cambiare la funzione di valore di stato e la funzione di valore d'azione.
  • Insieme di Output: rappresenta le possibili decisioni che il sistema può intraprendere.

Input

Gli input al sistema possono provenire dai più svariati sensori. Ad esempio, nel caso di un robot che deve imparare a muoversi all'interno di un percorso, gli input potrebbero essere forniti da dei sensori di prossimità che dovrebbero essere poi rimappati in opportuni stati che nel caso dell'esempio potrebbero essere "ostacolo di fronte", "strada libera", "muro sul lato" ecc. Per mappare i valori dei sensori a particolari stati si sono rivelate particolarmente efficaci le tecniche basate su controllori fuzzy.

Funzione di valore di stato

La funzione valore di stato è quella che ad ogni stato identificato dal sistema e determinato sulla base degli input, associa un valore relativo al grado di bontà della situazione. Viene generalmente espressa nella seguente forma:

Funzione di valore di azione

La funzione di valore di azione è quella che ad ogni coppia composta da stato e azione associa un valore relativo al grado di bontà della combinazione. Viene generalmente espressa nella forma:

Tecnica di rinforzo

A seconda di come si progetta e si decide di implementare il sistema di apprendimento, possono essere utilizzate diverse funzioni di rinforzo per cambiare la funzione di valore di stato e diverse politiche per determinare premi e penalità.

Dal punto di vista modellistico tutte le funzioni di rinforzo possono essere ricondotte alla seguente formula base:

dove

e è il "premio" o la "penalità" che è stata associata alla corrente azione da parte della funzione di azione.

Questa funzione, come si può intuire dalla formula, altera la funzione di valore di stato a partire dal prossimo istante in cui verrà richiamata e in base alla valutazione dell'azione corrente effettuata dalla politica di premio (o di penalità).

Le più diffuse politiche di premio (o di penalità) sono:

  • Rinforzo con premio ad orizzonte infinito: il rinforzo ha sempre la stessa intensità ed è valutato per tutti gli istanti temporali.
  • Rinforzo con premio ad orizzonte finito: il rinforzo ha sempre la stessa intensità ed è valutato per un periodo di tempo limitato.
  • Rinforzo con premio medio: il rinforzo ha intensità via via decrescente ma viene valutato per tutti gli istanti temporali. In pratica man mano che il tempo passa, i valori di rinforzo vengono attenuati dando più importanza alle valutazioni effettuate negli istanti iniziali.
  • Rinforzo con premio scontato: il rinforzo è distribuito per tutti gli istanti temporali ma aumenta a seconda di un parametro legato agli istanti temporali in cui viene applicato.

Output

L'output consiste in una delle azioni che il sistema può intraprendere. La scelta è effettuata in modo da massimizzare il valore della funzione di valore di azione ed è strettamente dipendente dal rinforzo distribuito durante gli istanti passati.

Algoritmi di apprendimento per rinforzo

  • Q-learning: è uno degli algoritmi di apprendimento con rinforzo più diffusi ed utilizzati. Fa utilizzo di un rinforzo con premio scontato e costituisce una variante della funzione di rinforzo di "base" presentata nei paragrafi precedenti.

Note

  1. ^ Martijn van Otterlo e Marco Wiering, Reinforcement Learning and Markov Decision Processes, Springer Berlin Heidelberg, 2012, pp. 3–42, ISBN 978-3-642-27644-6. URL consultato il 20 maggio 2022.
  2. ^ (EN) Sezione 8, Apprendimento con rinforzo di A.Bonarini, M. Matteucci, Politecnico di Milano. [collegamento interrotto]

Bibliografia

Voci correlate

Altri progetti

Controllo di autoritàThesaurus BNCF 69813 · LCCN (ENsh92000704 · GND (DE4825546-4 · BNF (FRcb17127232k (data) · J9U (ENHE987007546785305171
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

Read other articles:

Indikasi keberadaan ordo militer yang berasosiasi dengan Kerajaan Yerusalem dan Tanah Suci pada Perang Salib (dalam bahasa Jerman). Ordo militer (Latin: Militaris ordiniscode: la is deprecated ) adalah sebuah ordo kesatria dengan unsur-unsur militer. Ordo-ordo militer barat awalnya didirikan sebagai serikat keagamaan Katolik, ordo-ordo pertama bermula pada Perang Salib abad pertengahan dengan tujuan melindungi umat Kristen dari penindasan Muslim di Tanah Suci, yang kemudian berubah menjadi an...

 

 

MelanositMelanosit dan melanin.RincianLokasiKulitFungsiProduksi melaninPengidentifikasiBahasa LatinmelanocytusMeSHD008544THH2.00.03.0.01016FMA70545Daftar istilah mikroanatomi[sunting di Wikidata] Melanosit adalah sel penghasil melanin yang dapat ditemui di lapisan bawah (stratum basale) epidermis kulit, lapisan tengah mata (uvea),[1] telinga dalam,[2] epitelium vagina,[3] meninges,[4] tulang,[5] dan jantung.[6] Melanin adalah pigmen gelap ya...

 

 

American college basketball coach This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Murry Bartow – news · newspapers · books · scholar · JSTOR (August 2007) (Learn how and when to remove this temp...

PanteneJenis produkShampoPemilik Procter & GambleProdusen Richardson Vicks (1985) Procter & Gamble (1985–Sekarang)Negara  Swiss (1945–1985) (asli) Amerika Serikat (1985-Sekarang)Diluncurkan1945; 79 tahun lalu (1945),   Swiss (asli)1985; 39 tahun lalu (1985),  Amerika SerikatDihentikan1985,   Swiss (asli)PasarSeluruh duniaPemilik sebelumnya Hoffmann-La Roche (1945–1985) (asli) Richardson Vicks (1985)DutaPriyanka Chopra and Selena ...

 

 

Chronologies Données clés 1556 1557 1558  1559  1560 1561 1562Décennies :1520 1530 1540  1550  1560 1570 1580Siècles :XIVe XVe  XVIe  XVIIe XVIIIeMillénaires :-Ier Ier  IIe  IIIe Chronologies thématiques Art Architecture, Arts plastiques (Dessin, Gravure, Peinture et Sculpture), Littérature () et Musique classique   Ingénierie (), Architecture et ()   Politique Droit   Religion (,)   Science () et Santé et m�...

 

 

Historic administrative and geographical division of Scotland The counties, districts and burghs as they were in 1947 The shires of Scotland (Scottish Gaelic: Siorrachdan na h-Alba), or counties of Scotland, are historic subdivisions of Scotland established in the Middle Ages and used as administrative divisions until 1975. Originally established for judicial purposes (being the territory over which a sheriff had jurisdiction), from the 17th century they started to be used for local administr...

Disambiguazione – Se stai cercando altri significati, vedi Champagne (disambigua). Questa voce o sezione sull'argomento vini non cita le fonti necessarie o quelle presenti sono insufficienti. Commento: mancano del tutto citazioni puntuali di fonti, necessarie soprattutto quando si entra in particolari e si esprimono opinioni che, senza citazione, possono solo essere interpretate come personali dell'estensore del testo Puoi migliorare questa voce aggiungendo citazioni da fonti attendib...

 

 

Questa voce sull'argomento calciatori panamensi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. José Fajardo Nazionalità  Panama Altezza 180 cm Peso 67 kg Calcio Ruolo Attaccante Squadra  Universidad Católica CarrieraGiovanili  Indep. La ChorreraSquadre di club1 2018-2020 Indep. La Chorrera26 (10)2021 Nueve de Octubre27 (12)2022-2023 Cusco37 (20)2023 D.C. United7 (...

 

 

Municipality in GreeceKymi-Aliveri Κύμη-ΑλιβέριMunicipalityKymi-AliveriLocation within the region Coordinates: 38°25′N 24°02′E / 38.417°N 24.033°E / 38.417; 24.033CountryGreeceAdministrative regionCentral GreeceRegional unitEuboeaArea • Municipality804.98 km2 (310.80 sq mi)Population (2021)[1] • Municipality26,350 • Density33/km2 (85/sq mi)Time zoneUTC+2 (EET) • Summer (...

Nicklas Pedersen Informasi pribadiTanggal lahir 10 Oktober 1987 (umur 36)Tempat lahir Køge, DenmarkTinggi 1,87 m (6 ft 1+1⁄2 in)Posisi bermain PenyerangInformasi klubKlub saat ini GroningenNomor 14Karier junior HerfølgeKarier senior*Tahun Tim Tampil (Gol)2004–2007 Herfølge 41 (18)2007–2009 Nordsjælland 26 (9)2009– Groningen 68 (11)Tim nasional‡2006 Denmark U-20 1 (0)2007–2008 Denmark U-21 12 (3)2010– Denmark 7 (0) * Penampilan dan gol di klub senior ...

 

 

1907-1909 U.S. Congress 60th United States Congress59th ←→ 61stUnited States Capitol (1906)March 4, 1907 – March 4, 1909Members90 - 92 senators386 - 391 representatives6 non-voting delegatesSenate majorityRepublicanSenate PresidentCharles W. Fairbanks (R)House majorityRepublicanHouse SpeakerJoseph G. Cannon (R)Sessions1st: December 2, 1907 – May 30, 19082nd: December 7, 1908 – March 3, 1909 The 60th United States Congress was a meeting of the legislative branch of the...

 

 

Le informazioni riportate non sono consigli medici e potrebbero non essere accurate. I contenuti hanno solo fine illustrativo e non sostituiscono il parere medico: leggi le avvertenze. Il vaginismo è un disturbo sessuale che si manifesta sia a livello fisico-psicosomatico, sia a livello psicologico ed emotivo. Sul versante corporeo il disturbo consiste in una contrazione riflessa e involontaria dei muscoli del perineo, della vulva, dell'orifizio vaginale tale da impedire la penetrazione nec...

Egyptian space institution 30°07′46″N 31°22′54″E / 30.12949°N 31.38166°E / 30.12949; 31.38166 National Authority for Remote Sensing and Space Sciences (NARSS) is the pioneering Egyptian institution in the field of satellite remote sensing and space sciences. History NARSS is an outgrowth of Egyptian Remote Sensing Center, established in 1973 as an American-Egyptian joint project were affiliated with the Egyptian Academy of Scientific Research and Technology...

 

 

20th-century architectural style resembling classical, but without ornamentation For the Art Deco style sometimes called “stripped classical”, see Greco Deco. The German Imperial Embassy (designed 1911–12) on Saint Isaac's Square in Saint Petersburg is considered the key template for Stripped Classicism. It was stripped still further when the large statues originally placed on the plinth on the roof were removed during World War I Victoria Palace, Bucharest, Romania, 1937–1944, by Dui...

 

 

French TwistSutradaraJosiane BalaskoProduserPierre GrunsteinClaude BerriDitulis olehJosiane BalaskoPatrick AubréeTelsche BoormanPemeranVictoria Abril Josiane Balasko Alain ChabatPenata musikManuel MalouSinematograferGérard de BattistaPenyuntingClaudine MerlinKako Kelber (co-penyunting)DistributorAMLF (Prancis) Miramax Zoë (AS)Tanggal rilis 8 Februari 1995 (1995-02-08) Durasi104 menitNegaraPrancisBahasaPrancisAnggaran$7 jutaPendapatankotor$75.2 juta[1] French Twist (bahas...

American broadcast television network focusing on classic television series For the defunct Latin American channel, see Retro (TV channel). Television channel Retro TVTypeBroadcast television networkCountryUnited StatesHeadquartersChattanooga, Tennessee, U.S.ProgrammingPicture format480i (SDTV)OwnershipOwnerGet After It MediaKey peopleJoel WertmanDavid Leach[1]HistoryLaunchedJuly 2005; 19 years ago (2005-07)Former namesRetro Television NetworkLinksWebsitewww.get...

 

 

Anglo-Norman landowner and official (d. 1186) Hugh de Lacy4th Baron de LacyDrawing of de Lacy by Gerald of Wales1st Viceroy of IrelandIn office1172–1173MonarchHenry IISucceeded byWilliam FitzAldelmIn office1177–1181Preceded byWilliam FitzAldelmSucceeded byJohn fitz Richard1st Lord of MeathIn officeMarch 1172 – 25 July 1186Succeeded byWalter de Lacy Personal detailsBornbefore 1135Herefordshire, EnglandDied25 July 1186Durrow, IrelandSpouse(s)Rohese of Monmouth (d. before 1180); R...

 

 

'English placenames' and 'placenames of England' redirect here. For actual English place-names, see List of generic forms in place names in Ireland and the United Kingdom. The toponymy of England derives from a variety of linguistic origins. Many English toponyms have been corrupted and broken down over the years, due to language changes which have caused the original meanings to be lost. In some cases, words used in these place-names are derived from languages that are extinct, and of which...

2° Congresso olimpicoAlcuni membri del Comitato Olimpico Internazionale nel 1896. In piedi: Gebhardt, Guth-Jarkovský, Kemény, Balck. Seduti: De Coubertin, Vikelas, Butovskij Tema Decidere la sede dei Giochi della II Olimpiade*Convegno sulla Pedagogia e Igiene Partecipanti59 delegati Apertura23 luglio 1897 Chiusura31 luglio 1897 Stato Francia LocalitàMunicipio di Le Havre EsitoGiochi della II Olimpiade assegnati a Parigi Ospiti notevoliFélix FaureHenri Didon I Congresso Olimpico...

 

 

Questa voce sull'argomento calciatori ungheresi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Krisztián SimonSimon con la divisa dell'ÚjpestNazionalità Ungheria Altezza176 cm Peso67 kg Calcio RuoloCentrocampista Squadra Újpest CarrieraGiovanili 2008-2010 Újpest2009→  Wolverhampton Squadre di club1 2009-2011 Újpest16 (2)2009-2010 Újpest II? (?)2011 Feyenoord...