Markovning qaror qabul qilish jarayoni - Markov decision process

Matematikada a Markovning qaror qabul qilish jarayoni (MDP) a diskret vaqt stoxastik boshqaruv jarayon. Bu modellashtirish uchun matematik asosni taqdim etadi Qaror qabul qilish natijalar qisman bo'ladigan holatlarda tasodifiy va qisman qaror qabul qiluvchining nazorati ostida. MDPlar o'rganish uchun foydalidir optimallashtirish muammolari orqali hal qilindi dinamik dasturlash va mustahkamlashni o'rganish. MDPlar hech bo'lmaganda 1950-yillarda ma'lum bo'lgan;^[1] Markovning qaror qabul qilish jarayonlari bo'yicha tadqiqotlarning asosiy qismi Ronald Xovard 1960 yilgi kitob, Dinamik dasturlash va Markov jarayonlari.^[2] Ular ko'plab fanlarda, shu jumladan ishlatiladi robototexnika, avtomatik boshqarish, iqtisodiyot va ishlab chiqarish. MDPlarning nomi rus matematikidan kelib chiqqan Andrey Markov chunki ular kengaytmasi Markov zanjirlari.

Har bir qadamda jarayon qandaydir holatda bo'ladi ${ displaystyle s}$ va qaror qabul qiluvchi har qanday harakatni tanlashi mumkin ${ displaystyle a}$ davlatda mavjud ${ displaystyle s}$ . Jarayon keyingi bosqichda tasodifiy ravishda yangi holatga o'tish orqali javob beradi ${ displaystyle s '}$ va qaror qabul qiluvchiga tegishli mukofot berish ${ displaystyle R_ {a} (s, s ')}$ .

The ehtimollik jarayonning yangi holatiga o'tishi ${ displaystyle s '}$ tanlangan harakat ta'sir qiladi. Xususan, u davlat o'tish funktsiyasi tomonidan berilgan ${ displaystyle P_ {a} (s, s ')}$ . Shunday qilib, keyingi davlat ${ displaystyle s '}$ hozirgi holatga bog'liq ${ displaystyle s}$ va qaror qabul qiluvchining harakati ${ displaystyle a}$ . Lekin berilgan ${ displaystyle s}$ va ${ displaystyle a}$ , u avvalgi barcha holatlar va harakatlardan shartli ravishda mustaqil; boshqacha qilib aytganda, MDPning davlat o'tishlari uni qondiradi Markov mulki.

Markovning qaror qabul qilish jarayonlari kengaytmasi Markov zanjirlari; farq harakatlarning (tanlovga imkon beradigan) va mukofotlarning (motivatsiya berish) qo'shilishi. Aksincha, agar har bir davlat uchun faqat bitta harakat mavjud bo'lsa (masalan, "kutish") va barcha mukofotlar bir xil bo'lsa (masalan, "nol"), Markov qaror qabul qilish jarayoni Markov zanjiriga aylanadi.

Ta'rif

Uchta holat (yashil doiralar) va ikkita harakatlar (to'q sariq doiralar), ikkita mukofotga ega bo'lgan (to'q sariq o'qlar) oddiy MDP misoli.

Markovning qaror qabul qilish jarayoni 4-panjara ${ displaystyle (S, A, P_ {a}, R_ {a})}$ , qayerda

${ displaystyle S}$ a o'rnatilgan deb nomlangan davlatlarning davlat maydoni,
${ displaystyle A}$ - deb nomlangan harakatlar to'plami harakatlar maydoni (muqobil ravishda, ${ displaystyle A_ {s}}$ davlat tomonidan mavjud bo'lgan harakatlar to'plamidir ${ displaystyle s}$ ),
${ displaystyle P_ {a} (s, s ') = Pr (s_ {t + 1} = s' mid s_ {t} = s, a_ {t} = a)}$ bu harakatning ehtimolligi ${ displaystyle a}$ davlatda ${ displaystyle s}$ vaqtida ${ displaystyle t}$ davlatga olib keladi ${ displaystyle s '}$ vaqtida ${ displaystyle t + 1}$ ,
${ displaystyle R_ {a} (s, s ')}$ davlatdan o'tgandan so'ng olingan darhol mukofot (yoki kutilgan darhol mukofot) ${ displaystyle s}$ bayon qilish ${ displaystyle s '}$ , harakat tufayli ${ displaystyle a}$

Holat va harakat bo'shliqlari cheklangan yoki cheksiz bo'lishi mumkin, masalan haqiqiy sonlar to'plami. Cheksiz holat va harakat fazosiga ega bo'lgan ba'zi jarayonlar cheklangan holat va harakat fazosiga ega bo'lganlarga kamaytirilishi mumkin.^[3]

Optimallashtirish maqsadi

Markovning qaror qabul qilish jarayonida maqsadi qaror qabul qiluvchi uchun yaxshi "siyosat" ni topishdir: funktsiya ${ displaystyle pi}$ harakatni belgilaydigan ${ displaystyle pi (s)}$ qaror qabul qiluvchisi davlat holatini tanlaydi ${ displaystyle s}$ . Markovning qaror qabul qilish jarayoni shu bilan siyosat bilan birlashtirilgandan so'ng, har bir davlat uchun harakatni to'g'rilaydi va natijada kombinatsiya o'zini tutadi Markov zanjiri (shtatda tanlangan harakatdan beri ${ displaystyle s}$ tomonidan to'liq aniqlanadi ${ displaystyle pi (s)}$ va ${ displaystyle Pr (s_ {t + 1} = s ' mid s_ {t} = s, a_ {t} = a)}$ ga kamaytiradi ${ displaystyle Pr (s_ {t + 1} = s ' mid s_ {t} = s)}$ , Markov o'tish matritsasi).

Maqsad - siyosatni tanlash ${ displaystyle pi}$ bu tasodifiy mukofotlarning ba'zi kümülatif funktsiyalarini maksimal darajada oshiradi, odatda potentsial cheksiz ufqda kutilgan diskontlangan summa:

{ displaystyle E [ sum _ {t = 0} ^ { infty} { gamma ^ {t} R_ {a_ {t}} (s_ {t}, s_ {t + 1})}]}

(biz tanlagan joy

{ displaystyle a_ {t} = pi (s_ {t})}

, ya'ni siyosat tomonidan berilgan harakatlar). Va kutish amalga oshiriladi

{ displaystyle s_ {t + 1} sim P_ {a_ {t}} (s_ {t}, s_ {t + 1})}

qayerda ${ displaystyle gamma }$ bu chegirma omilidir ${ displaystyle 0 leq gamma leq 1}$ odatda 1 ga yaqin (masalan, ${ displaystyle gamma = 1 / (1 + r)}$ ba'zi bir chegirma stavkasi uchun r). Kam miqdordagi chegirma omili qaror qabul qiluvchini xatti-harakatlarni noma'lum muddatga qoldirib yubormaslik uchun emas, balki tezroq qilishni ma'qullaydi.

Yuqoridagi funktsiyani maksimal darajaga ko'taradigan siyosat an deb nomlanadi maqbul siyosat va odatda belgilanadi ${ displaystyle pi ^ {*}}$ . Muayyan MDP bir nechta aniq maqbul siyosatga ega bo'lishi mumkin. Markov xususiyati tufayli, yuqorida keltirilganidek, maqbul siyosat hozirgi holatning funktsiyasi ekanligini ko'rsatish mumkin.

Simulyator modellari

Ko'pgina hollarda, o'tish ehtimoli taqsimotlarini ifodalash qiyin, ${ displaystyle P_ {a} (s, s ')}$ , aniq. Bunday hollarda, taqsimot orqali o'tish taqsimotidan namunalar taqdim etish orqali MDPni modellashtirish uchun simulyatordan foydalanish mumkin. Yashirin MDP modelining keng tarqalgan shakllaridan biri bu epizodik muhit simulyatori bo'lib, u boshlang'ich holatidan boshlanishi mumkin va har safar harakatni qabul qilganida keyingi holatni va mukofotni beradi. Shu tarzda, ko'pincha chaqiriladigan davlatlar, harakatlar va mukofotlarning traektoriyalari epizodlar ishlab chiqarilishi mumkin.

Simulyatorning yana bir shakli - bu a generativ model, har qanday holat va harakatni hisobga olgan holda keyingi holat va mukofot namunalarini yaratishi mumkin bo'lgan bitta qadam simulyatori.^[4] (E'tibor bering, bu atamadan boshqacha ma'noga ega generativ model statistik tasniflash sharoitida.) In algoritmlar yordamida ifoda etilgan psevdokod, ${ displaystyle G}$ ko'pincha generativ modelni ifodalash uchun ishlatiladi. Masalan, ifoda ${ displaystyle s ', r G (s, a)} oladi$ bu erda generativ modeldan namuna olish harakatini bildirishi mumkin ${ displaystyle s}$ va ${ displaystyle a}$ mavjud holat va harakatlar, va ${ displaystyle s '}$ va ${ displaystyle r}$ bu yangi davlat va mukofotdir. Epizodik simulyator bilan taqqoslaganda generativ modelning afzalligi shundaki, u nafaqat traektoriyada uchraydigan, balki har qanday holatdagi ma'lumotlarni ham berishi mumkin.

Ushbu model sinflari axborot mazmunining iyerarxiyasini shakllantiradi: aniq model taqsimotlardan namuna olish orqali generativ modelni ahamiyatsiz ravishda hosil qiladi va generativ modelning takroriy qo'llanilishi epizodik simulyatorga ega bo'ladi. Qarama-qarshi yo'nalishda faqat taxminiy modellarni o'rganish mumkin regressiya. Muayyan MDP uchun mavjud bo'lgan model turi qaysi echim algoritmlariga mos kelishini aniqlashda muhim rol o'ynaydi. Masalan, dinamik dasturlash keyingi bobda tasvirlangan algoritmlar aniq modelni talab qiladi va Monte-Karlo daraxtlarini qidirish generativ modelni (yoki har qanday holatda nusxa olish mumkin bo'lgan epizodik simulyatorni) talab qiladi, aksincha mustahkamlashni o'rganish algoritmlar uchun faqat epizodik simulyator kerak.

Algoritmlar

Cheklangan holat va harakat maydonlariga ega bo'lgan MDPlar uchun echimlarni turli xil usullar bilan topish mumkin dinamik dasturlash. Ushbu bo'limdagi algoritmlar cheklangan holat va harakatlar bo'shliqlariga ega bo'lgan va o'tish ehtimoli va mukofotlash funktsiyalari aniq berilgan MDPlarga taalluqlidir, ammo asosiy tushunchalar boshqa muammo sinflarini boshqarish uchun kengaytirilishi mumkin, masalan. funktsiyani yaqinlashtirish.

Cheklangan holat va amaldagi MDPlar uchun maqbul siyosatni hisoblash uchun algoritmlarning standart oilasi holat bo'yicha indekslangan ikkita massivni saqlashni talab qiladi: qiymat ${ displaystyle V}$ , bu haqiqiy qadriyatlarni o'z ichiga oladi va siyosat ${ displaystyle pi}$ , harakatlarni o'z ichiga olgan. Algoritm oxirida, ${ displaystyle pi}$ eritmani o'z ichiga oladi va ${ displaystyle V (lar)}$ ushbu echimdan davlat tomonidan olinadigan (o'rtacha) mukofotlarning diskontlangan summasini o'z ichiga oladi ${ displaystyle s}$ .

Algoritm ikki bosqichdan iborat, (1) qiymatni yangilash va (2) siyosatni yangilash, bu boshqa holatlar sodir bo'lgunga qadar barcha holatlar uchun qandaydir tartibda takrorlanadi. Ikkalasi ham ushbu qiymatlarning qadimgi bahosidan foydalangan holda maqbul siyosat va davlat qiymatining yangi baholarini yangilaydi.

{ displaystyle V (s): = sum _ {s '} P _ { pi (s)} (s, s') left (R _ { pi (s)} (s, s ') + gamma) V (lar) o'ng)}

{ displaystyle pi (s): = operatorname {argmax} _ {a} left { sum _ {s '} P (s' mid s, a) left (R (s ' mid s) , a) + gamma V (s ') right) right }}

Ularning tartibi algoritmning variantiga bog'liq; ularni bir vaqtning o'zida barcha davlatlar uchun yoki shtatlar bo'yicha, boshqalarga qaraganda tez-tez ba'zi davlatlar uchun qilish mumkin. Har qanday bosqichdan biron bir holat doimiy ravishda chiqarib tashlanmaguncha, algoritm oxir-oqibat to'g'ri echimga keladi.^[5]

Taniqli variantlar

Qiymatning takrorlanishi

Qiymatni takrorlashda (Bellman 1957 yil ) deb nomlanadi orqaga qarab induksiya, ${ displaystyle pi}$ funktsiya ishlatilmaydi; o'rniga, ning qiymati ${ displaystyle pi (s)}$ ichida hisoblanadi ${ displaystyle V (lar)}$ kerak bo'lganda. Hisoblashni almashtirish ${ displaystyle pi (s)}$ ning hisoblashiga ${ displaystyle V (lar)}$ birlashtirilgan qadamni beradi^{[qo'shimcha tushuntirish kerak ]}:

{ displaystyle V_ {i + 1} (s): = max _ {a} left { sum _ {s '} P_ {a} (s' | s) left (R_ {a} (s) , s ') + gamma V_ {i} (s') right) right },}

qayerda ${ displaystyle i}$ takrorlanish soni. Qiymat takrorlanishi boshlanadi ${ displaystyle i = 0}$ va ${ displaystyle V_ {0}}$ taxminiga ko'ra qiymat funktsiyasi. Keyin takrorlanadi, qayta-qayta hisoblash ${ displaystyle V_ {i + 1}}$ barcha davlatlar uchun ${ displaystyle s}$ , qadar ${ displaystyle V}$ chap tomoni bilan o'ng tomonga tenglashadi (bu "Bellman tenglamasi "bu muammo uchun^{[tushuntirish kerak ]}). Lloyd Shapli 1953 yilgi qog'oz stoxastik o'yinlar MDPlar uchun qiymatlarni takrorlash usuli maxsus holat sifatida kiritilgan,^[6] ammo bu keyinroq tan olindi.^[7]

Siyosatning takrorlanishi

Siyosat iteratsiyasida (Xovard 1960 yil ), birinchi qadam bir marta bajariladi, so'ngra ikkinchi qadam yaqinlashguncha takrorlanadi. Keyin birinchi qadam yana bir marta amalga oshiriladi va hokazo.

Ikkinchi qadamni yaqinlashishga takrorlash o'rniga, u chiziqli tenglamalar to'plami sifatida shakllanishi va echilishi mumkin. Ushbu tenglamalar shunchaki tuzish yo'li bilan olinadi ${ displaystyle s = s '}$ Ikkinchi bosqichdagi tenglama.^{[tushuntirish kerak ]} Shunday qilib, yaqinlashuvga qadar ikkinchi bosqichni takrorlashni chiziqli tenglamalarni yechish sifatida talqin qilish mumkin Dam olish (iterativ usul)

Ushbu variantning afzalligi shundaki, aniq to'xtash sharti mavjud: qachon massiv ${ displaystyle pi}$ barcha holatlarga 1-bosqichni qo'llash jarayonida o'zgarmaydi, algoritm yakunlandi.

Siyosatning takrorlanishi, odatda, mumkin bo'lgan holatlarning ko'pligi uchun qiymat takrorlanishidan sekinroq.

O'zgartirilgan siyosat iteratsiyasi

O'zgartirilgan siyosat iteratsiyasida (van Nunen 1976 yil; Puterman va Shin 1978 yil ), birinchi qadam bir marta bajariladi, so'ngra ikkinchi qadam bir necha marta takrorlanadi.^[8]^[9] Keyin birinchi qadam yana bir marta amalga oshiriladi va hokazo.

Dastlabki supurish

Ushbu variantda, qadamlar imtiyozli ravishda ba'zi bir ahamiyatga ega bo'lgan holatlarga nisbatan qo'llaniladi - algoritm asosida bo'lsin (katta o'zgarishlar yuz berdi) ${ displaystyle V}$ yoki ${ displaystyle pi}$ yaqinda ushbu davlatlar atrofida) yoki foydalanishga asoslangan holda (ushbu holatlar boshlang'ich holatiga yaqin yoki algoritmdan foydalangan holda odam yoki dastur uchun qiziq).

Kengaytmalar va umumlashmalar

Markovning qaror qabul qilish jarayoni a stoxastik o'yin faqat bitta o'yinchi bilan.

Qisman kuzatilishi mumkin

Yuqoridagi echim davlatni nazarda tutadi ${ displaystyle s}$ chora ko'rilishi kerak bo'lgan vaqt ma'lum; aks holda ${ displaystyle pi (s)}$ hisoblash mumkin emas. Agar bu taxmin to'g'ri kelmasa, muammo qisman kuzatiladigan Markovning qaror qabul qilish jarayoni yoki POMDP deb nomlanadi.

Ushbu yo'nalishda Burnetas va Katehakis tomonidan "Markovning qaror qabul qilish jarayonlari uchun maqbul moslashuvchanlik siyosati" da katta yutuqlarga erishildi.^[10] Ushbu ishda, cheklangan davlat harakatining bo'shliqlari va o'tish qonunining kamayib bo'lmaydiganligi taxminlari asosida umumiy kutilgan so'nggi ufq mukofoti uchun bir xil maksimal konvergensiya xususiyatlariga ega bo'lgan moslashuvchan siyosat sinfi qurildi. Ushbu qoidalar har bir holat va vaqt oralig'ida harakatlarni tanlash taxminiy o'rtacha mukofotning maqbullik tenglamalarining o'ng tomonidagi inflyatsiyalarga asoslangan bo'lishi kerakligini belgilaydi.

Kuchaytirishni o'rganish

Agar ehtimolliklar yoki mukofotlar noma'lum bo'lsa, muammo kuchaytirishni o'rganishdir.^[11]

Buning uchun harakatni amalga oshirishga mos keladigan qo'shimcha funktsiyani belgilash foydalidir ${ displaystyle a}$ va keyin optimal ravishda davom ettirish (yoki hozirda qanday siyosat mavjud bo'lsa):

{ displaystyle Q (s, a) = sum _ {s '} P_ {a} (s, s') (R_ {a} (s, s ') + gamma V (s')). }

Ushbu funktsiya ham noma'lum bo'lsa-da, o'rganish davomida tajriba asoslanadi ${ displaystyle (s, a)}$ juftliklar (natija bilan birgalikda ${ displaystyle s '}$ ; ya'ni "Men shtatda edim ${ displaystyle s}$ va men bajarishga harakat qildim ${ displaystyle a}$ va ${ displaystyle s '}$ Shunday qilib, bitta qator mavjud ${ displaystyle Q}$ va uni to'g'ridan-to'g'ri yangilash uchun tajribadan foydalanadi. Bu Q-learning deb nomlanadi.

Kuchaytirishni o'rganish Markovning qaror qabul qilish jarayonlarini o'tish ehtimoli aniq ko'rsatilmagan holda hal qilishi mumkin; o'tish ehtimoli qiymatlari qiymat va siyosat iteratsiyasida zarur. Kuchaytirishni o'rganishda, o'tish ehtimoli aniq spetsifikatsiyasi o'rniga, o'tish ehtimoliga simulyator orqali kirish mumkin, bu odatda bir xil tasodifiy dastlabki holatdan ko'p marta qayta ishga tushiriladi. Kuchaytirishni o'rganish, shuningdek, juda ko'p sonli holatlar bilan bog'liq muammolarni hal qilish uchun funktsiyani yaqinlashtirish bilan birlashtirilishi mumkin.

Avtomatlashtirishni o'rganish

MDP jarayonining yana bir qo'llanilishi mashinada o'rganish nazariya o'quv avtomatlari deb nomlanadi. Bu atrof-muhit stastik bo'lsa, bu mustahkamlashni o'rganishning bir turidir. Birinchi tafsilot avtomatlarni o'rganish qog'oz tomonidan so'rov o'tkaziladi Narendra va Thathachar (1974), dastlab aniq tasvirlangan cheklangan davlat avtomatlari.^[12] Kuchaytirishni o'rganishga o'xshab, o'qitish avtomat algoritmi ham ehtimollik yoki mukofotlar noma'lum bo'lgan taqdirda muammoni hal qilishning afzalliklariga ega. O'qitish avtomatlari va Q-o'qitishning farqi shundaki, avvalgi texnika Q-qadriyatlarni xotirasini qoldiradi, ammo o'rganish natijasini topish uchun to'g'ridan-to'g'ri harakatlar ehtimolini yangilaydi. Avtomatlashtirishni o'rganish - bu yaqinlashishning aniq daliliga ega bo'lgan o'quv sxemasi.^[13]

Avtomatika nazariyasini o'rganishda, stoxastik avtomat dan iborat:

to'plam x mumkin bo'lgan ma'lumotlar,
Φ = {Φ to'plami₁, ..., Φ_s } mumkin bo'lgan ichki holatlarning,
a = {a $ to'plami₁, ..., a_r } mumkin bo'lgan natijalar yoki harakatlar r ≤ s,
dastlabki holat ehtimoli vektori p(0) = ≪ p₁(0), ..., p_s(0) ≫,
a hisoblash funktsiyasi A har bir qadamdan keyin t hosil qiladi p(t + 1) dan p(t), joriy kirish va joriy holat va
funktsiya G: Φ → a, bu har bir qadamda chiqishni hosil qiladi.

Bunday avtomatning holatlari "diskret-holat diskret-parametr" holatlariga mos keladi Markov jarayoni ".^[14] Har bir qadamda t = 0,1,2,3, ..., avtomat o'z atrofidagi kirishni o'qiydi, yangilanadi P (t) dan P (t + 1) tomonidan A, tasodifan P (ehtimollar) bo'yicha voris holatini tanlaydit + 1) va tegishli amalni chiqaradi. Avtomat muhiti, o'z navbatida, harakatni o'qiydi va keyingi kirishni avtomatga yuboradi.^[13]

Kategoriya nazariy talqini

Mukofotlardan tashqari, Markovning qaror qabul qilish jarayoni ${ displaystyle (S, A, P)}$ jihatidan tushunish mumkin Kategoriya nazariyasi. Ya'ni, ruxsat bering ${ displaystyle { mathcal {A}}}$ ni belgilang bepul monoid ishlab chiqaruvchi to'plam bilan A. Ruxsat bering Dist ni belgilang Kleisli toifasi ning Giry monad. Keyin funktsiya ${ displaystyle { mathcal {A}} to mathbf {Dist}}$ ikkala to'plamni ham kodlaydi S holatlar va ehtimollik funktsiyasi P.

Shu tarzda, Markovning qaror qabul qilish jarayonlarini monoidlardan (bitta ob'ektga ega toifalar) o'zboshimchalik toifalariga qadar umumlashtirish mumkin edi. Natijani chaqirish mumkin ${ displaystyle ({ mathcal {C}}, F: { mathcal {C}} to mathbf {Dist})}$ a kontekstga bog'liq bo'lgan Markovning qaror qabul qilish jarayoni, chunki bitta ob'ektdan ikkinchisiga o'tish ${ displaystyle { mathcal {C}}}$ mavjud harakatlar to'plamini va mumkin bo'lgan holatlar to'plamini o'zgartiradi.

Xiralashgan Markovning qaror qabul qilish jarayonlari (FMDP)

MDPlarda eng maqbul siyosat bu kelajakdagi mukofotlarning ehtimoliy og'irlikdagi summasini maksimal darajada oshiradigan siyosatdir. Shuning uchun maqbul siyosat cheklangan harakatlar to'plamiga tegishli bo'lgan bir nechta harakatlardan iborat. Markovning noaniq qaror qabul qilish jarayonlarida (FMDPlar), avvalo, qiymat funktsiyasi odatdagi MDPlar sifatida hisoblanadi (ya'ni, cheklangan harakatlar to'plami bilan); keyin, siyosat loyqa xulosa tizimi tomonidan chiqarilgan. Boshqacha qilib aytganda, qiymat funktsiyasi loyqa xulosa chiqarish tizimi uchun kirish sifatida ishlatiladi va siyosat loyqa xulosa chiqarish tizimining natijasidir.^[15]

Markovni doimiy ravishda qabul qilish jarayoni

Diskret vaqtdagi Markov qaror qabul qilish jarayonlarida qarorlar diskret vaqt oralig'ida qabul qilinadi. Biroq, uchun doimiy ravishda Markov qaror qabul qilish jarayonlari, qarorlar qabul qiluvchi qaror qilgan har qanday vaqtda qabul qilinishi mumkin. Diskret vaqtdagi Markov qarorlari bilan taqqoslaganda, doimiy ravishda Markovning qaror qabul qilish jarayonlari tizim uchun qaror qabul qilish jarayonini yaxshiroq modellashtirishi mumkin. doimiy dinamikasi, ya'ni tizim dinamikasi tomonidan belgilanadi qisman differentsial tenglamalar (PDE).

Ta'rif

Markovning doimiy qaror qabul qilish jarayonini muhokama qilish uchun biz ikkita belgini kiritamiz:

Agar davlat maydoni va harakatlar maydoni cheklangan bo'lsa,

${ displaystyle { mathcal {S}}}$ : Davlat maydoni;
${ displaystyle { mathcal {A}}}$ : Harakatlar maydoni;
${ displaystyle q (i mid j, a)}$ : ${ displaystyle { mathcal {S}} times { mathcal {A}} rightarrow triangle { mathcal {S}}}$ , o'tish tezligi funktsiyasi;
${ displaystyle R (i, a)}$ : ${ displaystyle { mathcal {S}} times { mathcal {A}} rightarrow mathbb {R}}$ , mukofotlash funktsiyasi.

Agar davlat maydoni va harakatlar maydoni doimiy bo'lsa,

${ displaystyle { mathcal {X}}}$ : davlat maydoni;
${ displaystyle { mathcal {U}}}$ : mumkin bo'lgan nazorat maydoni;
${ displaystyle f (x, u)}$ : ${ displaystyle { mathcal {X}} times { mathcal {U}} rightarrow triangle { mathcal {X}}}$ , o'tish tezligi funktsiyasi;
${ displaystyle r (x, u)}$ : ${ displaystyle { mathcal {X}} times { mathcal {U}} rightarrow mathbb {R}}$ , mukofot stavkasi funktsiyasi shunday ${ displaystyle r (x (t), u (t)) , dt = dR (x (t), u (t))}$ , qayerda ${ displaystyle R (x, u)}$ oldingi holatda biz muhokama qilgan mukofot vazifasi.

Muammo

Markovning diskret vaqtdagi qarorlari singari, doimiy Markov qarorlari jarayonida ham biz eng maqbulini topmoqchimiz siyosat yoki boshqaruv bu bizga eng yaxshi kutilgan integral mukofotni berishi mumkin:

{ displaystyle max operatorname {E} _ {u} left [ left. int _ {0} ^ { infty} gamma ^ {t} r (x (t), u (t)) , dt ; right | x_ {0} right]}

qayerda ${ displaystyle 0 leq gamma <1.}$

Lineer dasturlashni shakllantirish

Agar shtat maydoni va harakatlar maydoni cheklangan bo'lsa, biz eng to'g'ri siyosatni topish uchun chiziqli dasturlashdan foydalanishimiz mumkin edi, bu qo'llanilgan dastlabki yondashuvlardan biri edi. Bu erda biz faqat ergodik modelni ko'rib chiqamiz, ya'ni bizning doimiy MDP an bo'ladi ergodik doimiy ravishda Markov zanjiri statsionar ostida siyosat. Ushbu taxminga ko'ra, qaror qabul qiluvchi hozirgi paytda har qanday vaqtda qaror qabul qilishi mumkin bo'lsa-da, ular bir nechta choralar ko'rish orqali ko'proq foyda keltira olmadilar. Tizim hozirgi holatdan boshqa holatga o'tayotgan paytda ular uchun harakat qilishlari yaxshiroqdir. Ba'zi sharoitlarda, (batafsil xulosani olish uchun xulosani 3.14 ning Markovning doimiy qaror qabul qilish jarayonlari ), agar bizning optimal qiymatimiz funktsiyasi ${ displaystyle V ^ {*}}$ davlatdan mustaqildir ${ displaystyle i}$ , bizda quyidagi tengsizlik bo'ladi:

{ displaystyle g geq R (i, a) + sum _ {j in S} q (j mid i, a) h (j) quad forall i in S { text {and}} a in A (i)}

Agar funktsiya mavjud bo'lsa ${ displaystyle h}$ , keyin ${ displaystyle { bar {V}} ^ {*}}$ eng kichigi bo'ladi ${ displaystyle g}$ yuqoridagi tenglamani qondirish. Topish uchun ${ displaystyle { bar {V}} ^ {*}}$ , biz quyidagi chiziqli dasturlash modelidan foydalanishimiz mumkin:

Dastlabki chiziqli dastur (P-LP)

S} q (j mid i, a) da { displaystyle { begin {aligned} { text {Minimize}} quad & g { text {st}} quad & g- sum _ {j h (j) geq R (i, a) , , forall i in S, , a in A (i) end {hizalangan}}}

Ikki tomonlama chiziqli dastur (D-LP)

{ displaystyle { begin {aligned} { text {Maximize}} & sum _ {i in S} sum _ {a in A (i)} R (i, a) y (i, a) { text {st}} & sum _ {i in S} sum _ {a in A (i)} q (j mid i, a) y (i, a) = 0 quad forall j in S, & sum _ {i in S} sum _ {a in A (i)} y (i, a) = 1, & y (i, a) geq 0 qquad forall a in A (i) { text {and}} forall i in S end {hizalangan}}}

${ displaystyle y (i, a)}$ agar D-LP uchun mumkin bo'lgan echim bo'lsa ${ displaystyle y (i, a)}$ g'ayritabiiy va D-LP muammosidagi cheklovlarni qondirgan. Amalga oshiriladigan echim ${ displaystyle y ^ {*} (i, a)}$ agar D-LP ga tegmaslik echimi deyiladi

{ displaystyle { begin {aligned} sum _ {i in S} sum _ {a in A (i)} R (i, a) y ^ {*} (i, a) geq sum _ {i in S} sum _ {a in A (i)} R (i, a) y (i, a) end {hizalanmış}}}

barcha mumkin bo'lgan echimlar uchun ${ displaystyle y (i, a)}$ Bir marta biz optimal echimni topdik ${ displaystyle y ^ {*} (i, a)}$ , biz undan maqbul siyosatni o'rnatish uchun foydalanishimiz mumkin.

Xemilton-Jakobi-Bellman tenglamasi

Uzluksiz MDPda, agar vaziyat maydoni va harakatlar maydoni uzluksiz bo'lsa, hal qilish orqali maqbul mezon topilishi mumkin Gemilton-Jakobi-Bellman (HJB) qisman differentsial tenglamasi.HJB tenglamasini muhokama qilish uchun biz muammoni qayta tuzishimiz kerak

{ displaystyle { begin {aligned} V (x (0), 0) = {} & max _ {u} int _ {0} ^ {T} r (x (t), u (t)) , dt + D [x (T)] { text {st}} quad & { frac {dx (t)} {dt}} = f [t, x (t), u (t) ] end {hizalangan}}}

${ displaystyle D ( cdot)}$ terminal mukofotlash funktsiyasi, ${ displaystyle x (t)}$ tizim tizimining vektori, ${ displaystyle u (t)}$ biz topishga harakat qiladigan tizimni boshqarish vektori. ${ displaystyle f ( cdot)}$ holat vektori vaqt o'tishi bilan qanday o'zgarishini ko'rsatadi.Hamilton-Jakobi-Bellman tenglamasi quyidagicha:

{ displaystyle 0 = max _ {u} (r (t, x, u) + { frac { qisman V (t, x)} { qisman x}} f (t, x, u))}

Optimal boshqaruvni topish uchun tenglamani echishimiz mumkin edi ${ displaystyle u (t)}$ , bu bizga eng maqbul narsani berishi mumkin qiymat funktsiyasi ${ displaystyle V ^ {*}}$

Ilova

Markovning doimiy qaror qabul qilish jarayonlarida dasturlar mavjud navbat tizimlari, epidemik jarayonlar va aholi jarayonlari.

Muqobil yozuvlar

MDPlar uchun atamalar va yozuvlar to'liq hal qilinmagan. Ikkita asosiy oqim mavjud - bittasi iqtisodiy, iqtisodiy, kontekstli, harakat, mukofot, qiymat atamalaridan foydalangan holda diskontlash faktorini ishlatib, muammolarni maksimal darajaga ko'tarishga qaratilgan. ${ displaystyle beta}$ yoki ${ displaystyle gamma}$ , ikkinchisi esa muhandislik va navigatsiya muammolarini minimallashtirishga qaratilgan^{[iqtibos kerak ]}, nazorat, xarajatlar, sarf-xarajatlar va chegirma faktorini ishlatish shartlaridan foydalaniladi ${ displaystyle alpha}$ . Bundan tashqari, o'tish ehtimoli uchun yozuvlar har xil.

ushbu maqolada	muqobil	sharh
harakat ${ displaystyle a}$	boshqaruv ${ displaystyle u}$
sovrin ${ displaystyle R}$	xarajat ${ displaystyle g}$	${ displaystyle g}$ ning manfidir ${ displaystyle R}$
qiymat ${ displaystyle V}$	sarf-xarajat ${ displaystyle J}$	${ displaystyle J}$ ning manfidir ${ displaystyle V}$
siyosat ${ displaystyle pi}$	siyosat ${ displaystyle mu}$
diskontlash omili ${ displaystyle gamma }$	diskontlash omili ${ displaystyle alpha}$
o'tish ehtimoli ${ displaystyle P_ {a} (s, s ')}$	o'tish ehtimoli ${ displaystyle p_ {ss '} (a)}$

Bundan tashqari, o'tish ehtimoli ba'zan yoziladi ${ displaystyle Pr (s, a, s ')}$ , ${ displaystyle Pr (s ' mid s, a)}$ yoki kamdan-kam hollarda, ${ displaystyle p_ {s's} (a).}$

Markovning qaror qabul qilish jarayonlari cheklangan

Cheklangan Markov qarorlari (CMDP) - bu Markovning qaror qabul qilish jarayonining (MDP) kengaytmasi. MDP va CMDP o'rtasida uchta asosiy farq mavjud.^[16]

Amalni amalga oshirish o'rniga bitta amal o'rniga bir nechta xarajatlar kelib chiqadi.
CMDPlar hal qilinadi chiziqli dasturlar faqat va dinamik dasturlash ishlamaydi.
Yakuniy siyosat boshlang'ich holatiga bog'liq.

CMDP uchun bir qator dasturlar mavjud. Bu yaqinda ishlatilgan harakatni rejalashtirish robototexnika bo'yicha senariylar.^[17]

Shuningdek qarang

Adabiyotlar

^ Bellman, R. (1957). "Markovian qaror qabul qilish jarayoni". Matematika va mexanika jurnali. 6 (5): 679–684. JSTOR 24900506.
^ Xovard, Ronald A. (1960). Dinamik dasturlash va Markov jarayonlari (PDF). M.I.T. Matbuot.
^ Wrobel, A. (1984). "Cheklangan skeletga ega bo'lgan Markovian qaror modellari to'g'risida". Amaliyot tadqiqotlarining matematik usullari (ZOR). 28 (Fevral): 17-27. doi:10.1007 / bf01919083. S2CID 2545336.
^ Kerns, Maykl; Mansur, Yishay; Ng, Endryu (2002). "Katta Markov qaror qabul qilish jarayonlarida deyarli optimal rejalashtirish uchun siyrak tanlab olish algoritmi". Mashinada o'rganish. 49 (193–208): 193–208. doi:10.1023 / A: 1017932429737.
^ Kuchaytirishni o'rganish: nazariya va Pythonni amalga oshirish. Pekin: China Machine Press. 2019. p. 44. ISBN 9787111631774.
^ Shapli, Lloyd (1953). "Stoxastik o'yinlar". Amerika Qo'shma Shtatlari Milliy Fanlar Akademiyasi materiallari. 39 (10): 1095–1100. Bibcode:1953PNAS ... 39.1095S. doi:10.1073 / pnas.39.10.1095. PMC 1063912. PMID 16589380.
^ Kallenberg, Lodevik (2002). "Oxirgi holat va amaldagi MDPlar". Faynbergda, Evgeniy A.; Shvarts, Odam (tahr.). Markovning qaror qabul qilish jarayonlari bo'yicha qo'llanmasi: usullari va qo'llanilishi. Springer. ISBN 978-0-7923-7459-6.
^ Puterman, M. L .; Shin, M. C. (1978). "Diskontlangan Markovning hal qilish muammolari uchun o'zgartirilgan siyosatni takrorlash algoritmlari". Menejment fanlari. 24 (11): 1127–1137. doi:10.1287 / mnsc.24.11.1127.
^ van Nunen, J.A. E. E (1976). "Diskontlangan Markovian qarorlari muammolari uchun ketma-ket taxminiy usullar to'plami. Z". Operatsion tadqiqotlar. 20 (5): 203–208. doi:10.1007 / bf01920264. S2CID 5167748.
^ Burnetas, A.N .; Katehakis, M. N. (1997). "Markovning qaror qabul qilish jarayonlari uchun maqbul adaptiv siyosati". Amaliyot tadqiqotlari matematikasi. 22 (1): 222. doi:10.1287 / moor.22.1.222.
^ Shoham, Y .; Pauers, R .; Grenager, T. (2003). "Ko'p agentli mustahkamlashni o'rganish: tanqidiy so'rov" (PDF). Texnik hisobot, Stenford universiteti: 1–13. Olingan 2018-12-12.
^ Narendra, K. S.; Thathachar, M. A. L. (1974). "Avtomatika o'rganish - So'rovnoma". IEEE tizimlari, inson va kibernetika bo'yicha operatsiyalar. SMC-4 (4): 323-334. CiteSeerX 10.1.1.295.2280. doi:10.1109 / TSMC.1974.5408453. ISSN 0018-9472.
^ ^a ^b Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Avtomatlashtirishni o'rganish: kirish. Prentice Hall. ISBN 9780134855585.
^ Narendra va Thathachar 1974 yil, s.325 qoldi.
^ Fakur, Mahdi; Kosari, Amirreza; Jafarzadeh, Mohsen (2016). "Markovning loyqa qaror qabul qilish jarayonlari bilan gumanoid robot yo'lini rejalashtirish". Amaliy tadqiqotlar va texnologiyalar jurnali. 14 (5): 300–310. doi:10.1016 / j.jart.2016.06.006.
^ Altman, Eitan (1999). Markovning qaror qabul qilish jarayonlari cheklangan. 7. CRC Press.
^ Feyzabadi, S .; Carpin, S. (2014 yil 18-22 avgust). "Ierarxik cheklangan Markov qaror qabul qilish jarayonlaridan foydalangan holda xavfni biladigan yo'llarni rejalashtirish". Avtomatlashtirish fanlari va muhandisligi (CASE). IEEE xalqaro konferentsiyasi. 297, 303 betlar.

Qo'shimcha o'qish

Bellman., R. E. (2003) [1957]. Dinamik dasturlash (Dover qog'ozli tahriri). Princeton, NJ: Princeton University Press. ISBN 978-0-486-42809-3.
Bertsekas, D. (1995). Dinamik dasturlash va optimal boshqarish. 2. MA: Afina.
Derman, C. (1970). Yakuniy davlat Markovian qaror qabul qilish jarayonlari. Akademik matbuot.
Feynberg, E.A.; Shvarts, A., nashr. (2002). Markovning qaror qabul qilish jarayonlari to'g'risidagi qo'llanma. Boston, MA: Klyuver. ISBN 9781461508052.
Guo, X .; Ernandes-Lerma, O. (2009). Markovning doimiy qaror qabul qilish jarayonlari. Stoxastik modellashtirish va amaliy ehtimollik. Springer. ISBN 9783642025464.
Meyn, S. P. (2007). Murakkab tarmoqlarni boshqarish usullari. Kembrij universiteti matbuoti. ISBN 978-0-521-88441-9. Arxivlandi asl nusxasi 2010 yil 19 iyunda. Ilovada qisqartirilgan "Meyn va Tvidi". Arxivlandi asl nusxasi 2012 yil 18 dekabrda.
Puterman., M. L. (1994). Markovning qaror qabul qilish jarayonlari. Vili.
Ross, S. M. (1983). Stoxastik dinamik dasturlashga kirish (PDF). Akademik matbuot.
Satton, R. S .; Barto, A. G. (2017). Kuchaytirishni o'rganish: kirish. Kembrij, MA: The MIT Press.
Tijms., H.C. (2003). Stoxastik modellarda birinchi kurs. Vili. ISBN 9780470864289.

Tashqi havolalar

Markovian qaror qabul qilish jarayonlarini hal qilishni o'rganish tomonidan Satinder P. Singh

[1] Bellman, R. (1957). "Markovian qaror qabul qilish jarayoni". Matematika va mexanika jurnali. 6 (5): 679–684. JSTOR 24900506.

[2] Xovard, Ronald A. (1960). Dinamik dasturlash va Markov jarayonlari (PDF). M.I.T. Matbuot.

[Wrobel_1984-3] Wrobel, A. (1984). "Cheklangan skeletga ega bo'lgan Markovian qaror modellari to'g'risida". Amaliyot tadqiqotlarining matematik usullari (ZOR). 28 (Fevral): 17-27. doi:10.1007 / bf01919083. S2CID 2545336.

[Kearns_Sparse-4] Kerns, Maykl; Mansur, Yishay; Ng, Endryu (2002). "Katta Markov qaror qabul qilish jarayonlarida deyarli optimal rejalashtirish uchun siyrak tanlab olish algoritmi". Mashinada o'rganish. 49 (193–208): 193–208. doi:10.1023 / A: 1017932429737.

[5] Kuchaytirishni o'rganish: nazariya va Pythonni amalga oshirish. Pekin: China Machine Press. 2019. p. 44. ISBN 9787111631774.

[6] Shapli, Lloyd (1953). "Stoxastik o'yinlar". Amerika Qo'shma Shtatlari Milliy Fanlar Akademiyasi materiallari. 39 (10): 1095–1100. Bibcode:1953PNAS ... 39.1095S. doi:10.1073 / pnas.39.10.1095. PMC 1063912. PMID 16589380.

[7] Kallenberg, Lodevik (2002). "Oxirgi holat va amaldagi MDPlar". Faynbergda, Evgeniy A.; Shvarts, Odam (tahr.). Markovning qaror qabul qilish jarayonlari bo'yicha qo'llanmasi: usullari va qo'llanilishi. Springer. ISBN 978-0-7923-7459-6.

[8] Puterman, M. L .; Shin, M. C. (1978). "Diskontlangan Markovning hal qilish muammolari uchun o'zgartirilgan siyosatni takrorlash algoritmlari". Menejment fanlari. 24 (11): 1127–1137. doi:10.1287 / mnsc.24.11.1127.

[9] van Nunen, J.A. E. E (1976). "Diskontlangan Markovian qarorlari muammolari uchun ketma-ket taxminiy usullar to'plami. Z". Operatsion tadqiqotlar. 20 (5): 203–208. doi:10.1007 / bf01920264. S2CID 5167748.

[10] Burnetas, A.N .; Katehakis, M. N. (1997). "Markovning qaror qabul qilish jarayonlari uchun maqbul adaptiv siyosati". Amaliyot tadqiqotlari matematikasi. 22 (1): 222. doi:10.1287 / moor.22.1.222.

[11] Shoham, Y .; Pauers, R .; Grenager, T. (2003). "Ko'p agentli mustahkamlashni o'rganish: tanqidiy so'rov" (PDF). Texnik hisobot, Stenford universiteti: 1–13. Olingan 2018-12-12.

[12] Narendra, K. S.; Thathachar, M. A. L. (1974). "Avtomatika o'rganish - So'rovnoma". IEEE tizimlari, inson va kibernetika bo'yicha operatsiyalar. SMC-4 (4): 323-334. CiteSeerX 10.1.1.295.2280. doi:10.1109 / TSMC.1974.5408453. ISSN 0018-9472.

[NarendraEtAl1989-13] Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Avtomatlashtirishni o'rganish: kirish. Prentice Hall. ISBN 9780134855585.

[FOOTNOTENarendraThathachar1974p.325_left-14] Narendra va Thathachar 1974 yil, s.325 qoldi.

[15] Fakur, Mahdi; Kosari, Amirreza; Jafarzadeh, Mohsen (2016). "Markovning loyqa qaror qabul qilish jarayonlari bilan gumanoid robot yo'lini rejalashtirish". Amaliy tadqiqotlar va texnologiyalar jurnali. 14 (5): 300–310. doi:10.1016 / j.jart.2016.06.006.

[16] Altman, Eitan (1999). Markovning qaror qabul qilish jarayonlari cheklangan. 7. CRC Press.

[17] Feyzabadi, S .; Carpin, S. (2014 yil 18-22 avgust). "Ierarxik cheklangan Markov qaror qabul qilish jarayonlaridan foydalangan holda xavfni biladigan yo'llarni rejalashtirish". Avtomatlashtirish fanlari va muhandisligi (CASE). IEEE xalqaro konferentsiyasi. 297, 303 betlar.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]