UČENIE ODMENOU A TRESTOM

UČENIE ODMENOU A TRESTOM doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/

OSNOVA: • Charakteristika učenia odmenou a trestom • Získavanie riadiacich znalostí • Reprezentácia a použitie • Tabuľkový prístup • Proces učenia • Q-learning • Bucket brigade • Hodnotiace poznámky

CHARAKTERISTIKA UČENIA ODMENOU A TRESTOM • Rieši úlohy sekvenčného typu. • Daný je počiatočný a konečný stav v stavovom • priestore. • Hľadá cestu od počiatočného ku koncovému stavu. • Je to nekontrolované učenie. • ReinforcementLearning(RL)– posilňované učenie.

ZÍSKAVANIE RIADIACICH ZNALOSTÍ • Dané: čiastočné znalosti problémovej domény • skúsenosti s prehľadávaním priestoru • Získame: presné rozhodnutie v každom stave • Učenie spočíva vo vylepšovaní rozhodnutia • Rozhodnutia – v mozgu agenta, vo fyzickom svete • Agent počas hľadania generuje vlastné experimenty • – interná odmena • Môže aj sledovať riešenie doménového experta • - externá odmena • Riadiace znalosti môžu byť získané aj vyhodnotením • úspešných (výhry) a neúspešných (prehry, sľučky) ciest

ZÍSKAVANIE RIADIACICH ZNALOSTÍ • Kvalita riešenia sa posudzuje podľa: • Efektívnosti hľadaného riešenia • Spoľahlivosti plánov po realizácii v externom svete • Kvality návrhu • Riešenie sekvenčnej úlohy vyžaduje viac krokov • (informáciu o úspešnosti kroku dostane riešiteľ dlho • po jeho vykonaní). • To vedie k dvom základným istotám v učení: • Priradenie odmeny dobrým rozhodnutiam • Priradenie pokuty zlým rozhodnutiam

ZÍSKAVANIE RIADIACICH ZNALOSTÍ • Jedným z prístupov k získavaniu riadiacich znalostí • je „učenie odmenou a trestom“. • Sústreďuje sa na preferenciu znalostí na výber • operátora pomocou ohodnocovacej funkcie. • Odmena – REWARD sa prideľuje viac žiadaným stavom. • Trest – NEGATIVE REWARD sa prideľuje menej • žiadaným stavom. • Stratégia učenia: priblížiť sa prvým a vyhnúť sa druhým. • Táto stratégia povedie v každom kroku k stavu • s najvyššou odmenou.

REPREZENTÁCIA A POUŽITIE UČENIA ODMENOU A TRESTOM • Reprezentácia: • Pomocou tabuľky • Popisuje páry stav s – akcia a. • Každá bunka tabuľky obsahuje očakávanú odmenu, • reprezentujúcu vhodnosť vykonania akcie v danom stave Použitie: • Pomocou série rozhodnutí je možné prejsť • od počiatočného ku koncovému stavu najkratšou cestou.

TABUĽKOVÝ PRÍSTUP Takúto tabuľku je možné zobraziť ako orientovaný ohodnotený graf, ktorého uzly znázorňujú stavy a hrany akcie. Hrany sú ohodnotené odmenou/trestom. Tento graf sa nazýva stavový priestor.

PROCES UČENIA • Používa sa dopredné reťazenie. To vyžaduje: • Hľadanie tabuľkových vstupov pre aktuálny stav • Výber akcie s najvyšším skóre • Aplikovanie vybratej akcie na dosiahnutie nového stavu • Troj-krokový cyklus sa opakuje kým nie je dosiahnutý • požadovaný stav. • Algoritmus mení - aktualizuje predikovanú odmenu • uchovávanú v tabuľke stavov a akcií na základe skúsenosti. • Najznámejšie aktualizačné schémy sú: • Q – learning • BucketBrigade

Q - LEARNING 0<γ<1 je redukčný faktor 0<β<1 je faktor rýchlosti učenia Q(s,a) je interná odmena s’ je výsledný stav po aplikácii akcie a v stave s r(s,a) je externá odmena (daná učiteľom, apriórna), nemusí byť zadaná každému páru (s,a), najväčšia býva pri konečnom stave U(s’) je maximálna z očakávaných odmien v s’ Pri dostatočnom počte TP aktualizačná schéma konverguje k nasledovnému výrazu:

Q - LEARNING • Pri dostatočnom počte experimentov sa môže • algoritmus premiestniť do najžiadanejšieho stavu • z akéhokoľvek miesta v stavovom priestore. • Učenie je možné urýchliť zmenou faktoru rýchlosti • učenia β (začína sa s veľkou hodnotou pre hrubú • aproximáciu v počiatočnej etape učenia, znižovaním • sa umožní presnejšie ladenie v posledných fázach). • Stratégia Q-learningu je odvodená z metódy • dynamického programovania a Markovovských • procesov

BUCKET BRIGADE • Ak algoritmus aplikuje akciu a v stave s, zníži sa Q(s,a) • o frakciu f.Q(s,a). O tú istú časť sa zvýši odmena • predchádzajúceho stavu. • Prvý stav neodovzdá časť svojej hodnoty nikomu. • Posledný nedostane internú odmenu od nikoho • (jeho zdroj je externá odmena koncového stavu). • Iba niektoré stavy majú priradené externé hodnoty • (hlavne koncové). Interná odmena odráža odhad • žiadanosti akcie a v stave s.

HODNOTIACE POZNÁMKY • Výhody učenia odmenou a trestom: • nepožaduje znalosti o efektívnosti operátorov • dokáže zvládnuť neurčité a zašumené domény • môže spolupracovať s externým svetom • Nevýhody učenia odmenou a trestom: • nízka rýchlosť učenia zvlášť pri dlhých riešiacich cestách • závislosť na postupnom spätnom šírení odmien • pozdĺž hľadanej cesty • riešiteľ úlohy prechádza stavovým priestorom mnohokrát • kým odmeny dosiahnu všetky časti stavového priestoru. Riešením by mohlo byť rozdelenie priestoru na zmysluplné segmenty a oddelené trénovanie učiaceho systému nad každým segmentom.

UČENIE ODMENOU A TRESTOM

UČENIE ODMENOU A TRESTOM

Presentation Transcript

Environmentálne systémy – agroekosystém

INTUBACJA DOTCHAWICZA

Príslovia, porekadlá, pranostiky

14.00 – 15.30 Marketingové case study Právní poradna Závěrečná Bitva o Děvín

Parki Narodowe w Polsce

Riešenie rovníc v Matlabe

Úvod do diplomacie

Sie ťové architektúry

Imunológia –praktické cvičenie č. 1.

LETECKÁ FAKULTA TECHNICKEJ UNIVERZITY V KOŠICIACH

MUDr. Monika Laššánová

Starostlivosť o matku a dieťa

Farmakoterapia hypertenzie

Aerodinamika a Fasádna Technika

Východoslovenský bioptický seminár, Košice 2010

ÚČTOVNÍCTVO

Súmernosti

CIVILNÁ

OŠETROVATEĽSKÁ STAROSTLIVOSŤ O PACIENTA S OCHORENÍM POHYBOVÉHO SYSTÉMU

Predn áška č. 1: In žinierské úlohy poľa a ich riešenie

Ing. Zuzana Čierna, PhD. Katedra financií

IZBOVÉ RASTLINY