Lezioni da AlphaZero per il controllo ottimale, predittivo del modello e adattivo - Rilegato

Dimitri P. Bertsekas

 
9781886529175: Lezioni da AlphaZero per il controllo ottimale, predittivo del modello e adattivo

Al momento non sono disponibili copie per questo codice ISBN.

Sinossi

Lo scopo di questo libro è quello di proporre e sviluppare un nuovo quadro concettuale per la programmazione dinamica (DP) approssimativa e il Reinforcement Learning (RL). Questo framework è incentrato su due algoritmi, progettati in gran parte indipendentemente l'uno dall'altro e operano in sinergia attraverso il potente meccanismo del metodo di Newton. Li chiamiamo la formazione off-line e gli algoritmi di gioco online; i nomi sono presi in prestito da alcuni dei maggiori successi di RL che coinvolgono i giochi. Esempi primari sono il recente programma AlphaZero (2017) (che gioca a scacchi) e il programma TD-Gammon strutturato in modo simile e precedente (anni '90) (che gioca a backgammon). In questi contesti di gioco, l'algoritmo di allenamento off-line è il metodo utilizzato per insegnare al programma come valutare le posizioni e generare buone mosse in una data posizione, mentre l'algoritmo di gioco online è il metodo utilizzato per giocare in tempo reale contro avversari umani o informatici. Sia AlphaZero che TD-Gammon sono stati addestrati off-line ampiamente utilizzando reti neurali e una versione approssimativa dell'algoritmo DP fondamentale dell'iterazione delle politiche. Tuttavia, il lettore AlphaZero ottenuto off-line non viene utilizzato direttamente durante il gioco online (è troppo impreciso a causa di errori di approssimazione inerenti all'addestramento della rete neurale off-line). Invece un giocatore online separato viene utilizzato per selezionare le mosse, in base alla minimizzazione del lookahead multistep e a un valutatore della posizione del terminale che è stato addestrato utilizzando l'esperienza con il giocatore off-line. Il giocatore online esegue una forma di miglioramento delle politiche, che non è degradata dalle approssimazioni della rete neurale. Di conseguenza, migliora notevolmente le prestazioni del giocatore off-line. Allo stesso modo, TD-Gammon esegue on-line una fase di miglioramento delle politiche utilizzando la minimizzazione del lookahead in uno o due passaggi, che non è degradata dalle approssimazioni della rete neurale. A tal fine utilizza un valutatore di posizione terminale addestrato sulla rete neurale off-line e, soprattutto, estende anche il suo lookahead online tramite lancio (simulazione con il giocatore lookahead in un passaggio che si basa sul valutatore di posizione). Significativamente, la sinergia tra formazione off-line e gioco online è anche alla base del Model Predictive Control (MPC), un'importante metodologia di progettazione del sistema di controllo che è stata ampiamente sviluppata dagli anni '80. Questa sinergia può essere compresa in termini di modelli astratti di DP orizzonte infinito e semplici costruzioni geometriche, e aiuta a spiegare le importantissime questioni di stabilità all'interno del contesto MPC. Un ulteriore vantaggio del miglioramento delle politiche per approssimazione nello spazio dei valori, non osservato nel contesto dei giochi (che hanno regole e ambiente stabili), è che funziona bene con i cambiamenti dei parametri problematici e la ripianificazione online, simile al controllo adattivo indiretto. Qui l'equazione di Bellman è perturbata a causa delle modifiche dei parametri, ma l'approssimazione nello spazio dei valori funziona ancora come passo di Newton. Un requisito essenziale qui è che un modello di sistema è stimato on-line attraverso un metodo di identificazione e viene utilizzato durante il processo di minimizzazione della testa di ricerca in un passaggio o in più fasi. In questa monografia miriamo a fornire approfondimenti (spesso basati sulla visualizzazione), che spiegano gli effetti benefici del processo decisionale online oltre alla formazione off-line. Nel processo, metteremo in evidenza le forti connessioni tra la visione dell'intelligenza artificiale di RL e le visioni della teoria del controllo di MPC e del controllo adattivo. Inoltre, mostreremo che oltre all'MPC e al controllo adattivo, il nostro quadro concettuale può essere efficacemente integrato con altre importanti metodologie come sistemi multiagent e controllo decentralizzato, ottimizzazione discreta e bayesiana e algoritmi euristici per l'ottimizzazione discreta. Uno dei nostri obiettivi principali è dimostrare, attraverso le idee algoritmiche del metodo di Newton e i principi unificanti della DP astratta, che la metodologia AlphaZero/TD-Gammon di approssimazione nello spazio di valore e nel lancio si applica in modo molto ampio a problemi di controllo ottimale deterministici e stocastici. Il metodo di Newton qui viene utilizzato per la soluzione dell'equazione di Bellman, un'equazione dell'operatore che si applica universalmente all'interno di DP con spazi di stato e controllo discreti e continui, nonché orizzonte finito e infinito.

Le informazioni nella sezione "Riassunto" possono far riferimento a edizioni diverse di questo titolo.