Ko'p qavatli pertseptron - Multilayer perceptron

A ko'p qatlamli pertseptron (MLP) - sinf ozuqa sun'iy neyron tarmoq (ANN). MLP atamasi noaniq, ba'zan bemalol ishlatiladi har qanday feedforward ANN, ba'zan qat'iy ravishda bir necha qatlamlardan tashkil topgan tarmoqlarga murojaat qilish uchun perceptronlar (polni faollashtirish bilan); qarang § terminologiya. Ko'p qavatli pertseptronlar ba'zida og'zaki ravishda "vanilya" asab tarmoqlari deb ataladi, ayniqsa, ular bitta yashirin qatlamga ega bo'lganda.^[1]

MLP kamida uchta qatlamli tugunlardan iborat: kirish qatlami, yashirin qatlam va chiqish qatlami. Kirish tugunlaridan tashqari, har bir tugun chiziqsiz ishlatadigan neyrondir faollashtirish funktsiyasi. MLP foydalanadi a nazorat ostida o'rganish deb nomlangan texnika orqaga targ'ib qilish mashg'ulot uchun.^[2]^[3] Uning ko'p qatlamlari va chiziqli bo'lmagan faollashishi MLPni chiziqli dan ajratib turadi pertseptron. U bo'lmagan ma'lumotlarni ajratib turishi mumkin chiziqli bo'linadigan.^[4]

Nazariya

Faollashtirish funktsiyasi

Agar ko'p qatlamli pertseptron chiziqli bo'lsa faollashtirish funktsiyasi barcha neyronlarda, ya'ni xaritalaydigan chiziqli funktsiya vaznli kirish keyin har bir neyronning chiqishiga chiziqli algebra har qanday miqdordagi qatlamlarni ikki qavatli kirish-chiqarish modeliga kamaytirish mumkinligini ko'rsatadi. MLPlarda ba'zi neyronlar a dan foydalanadilar chiziqli emas ning chastotasini modellashtirish uchun ishlab chiqilgan faollashtirish funktsiyasi harakat potentsiali yoki biologik neyronlarning otilishi.

Tarixiy jihatdan keng tarqalgan ikkita faollashtirish vazifasi ikkalasi ham sigmasimonlar, va tomonidan tavsiflanadi

{ displaystyle y (v_ {i}) = tanh (v_ {i}) ~~ { textrm {and}} ~~ y (v_ {i}) = (1 + e ^ {- v_ {i}} ) {{- 1}}

.

Ning so'nggi o'zgarishlarida chuqur o'rganish The rektifikatorli chiziqli birlik (ReLU) raqamni engib o'tishning mumkin bo'lgan usullaridan biri sifatida tez-tez ishlatiladi muammolar sigmasimonlar bilan bog'liq.

Birinchisi a giperbolik tangens bu -1 dan 1 gacha, ikkinchisi esa logistika funktsiyasi, shakli o'xshash, lekin 0 dan 1 gacha. Bu erda ${ displaystyle y_ {i}}$ ning chiqishi ${ displaystyle i}$ th tugun (neyron) va ${ displaystyle v_ {i}}$ - bu kirish ulanishlarining tortilgan yig'indisi. Shu bilan bir qatorda faollashtirishning alternativ funktsiyalari taklif qilingan rektifikator va yumshoqlik funktsiyalari. Ko'proq ixtisoslashtirilgan faollashtirish funktsiyalari kiradi radial asos funktsiyalari (ishlatilgan radial asosli tarmoqlar, boshqariladigan neyron tarmoq modellarining yana bir klassi).

Qatlamlar

MLP uch yoki undan ortiq qatlamlardan iborat (kirish va chiqish qatlami bir yoki bir nechtasiga ega yashirin qatlamlar) chiziqsiz faollashtiruvchi tugunlarning. MLPlar to'liq ulanganligi sababli, bitta qatlamdagi har bir tugun ma'lum og'irlik bilan bog'lanadi ${ displaystyle w_ {ij}}$ quyidagi qatlamdagi har bir tugunga.

O'rganish

O'rganish pertseptronda kutilgan natijaga taqqoslaganda chiqishdagi xatolik miqdori asosida har bir ma'lumotni qayta ishlagandan so'ng ulanish og'irligini o'zgartirib sodir bo'ladi. Bu misol nazorat ostida o'rganish va orqali amalga oshiriladi orqaga targ'ib qilish, ning umumlashtirilishi eng kam o'rtacha kvadratlar algoritmi chiziqli perceptronda.

Biz chiqish tugunida xatolik darajasini aks ettira olamiz ${ displaystyle j}$ ichida ${ displaystyle n}$ th ma'lumotlar punkti (o'qitish namunasi) tomonidan ${ displaystyle e_ {j} (n) = d_ {j} (n) -y_ {j} (n)}$ , qayerda ${ displaystyle d}$ maqsad qiymati va ${ displaystyle y}$ bu perceptron tomonidan ishlab chiqarilgan qiymatdir. So'ngra tugun og'irliklari butun chiqishdagi xatoni minimallashtiradigan tuzatishlar asosida sozlanishi mumkin

{ displaystyle { mathcal {E}} (n) = { frac {1} {2}} sum _ {j} e_ {j} ^ {2} (n)}

.

Foydalanish gradiyent tushish, har bir vazndagi o'zgarish

{ displaystyle Delta w_ {ji} (n) = - eta { frac { kısalt { mathcal {E}} (n)} { qismli v_ {j} (n)}} y_ {i} ( n)}

qayerda ${ displaystyle y_ {i}}$ oldingi neyronning chiqishi va ${ displaystyle eta}$ bo'ladi o'rganish darajasi, bu og'irliklarning tebranishsiz tezda javobga yaqinlashishini ta'minlash uchun tanlangan.

Hisoblanadigan lotin induktsiya qilingan mahalliy maydonga bog'liq ${ displaystyle v_ {j}}$ , o'zi farq qiladi. Chiqish tuguni uchun ushbu hosilani soddalashtirish mumkinligini isbotlash oson

{ displaystyle - { frac { kısalt { mathcal {E}} (n)} { qismli v_ {j} (n)}} = e_ {j} (n) phi ^ { prime} (v_) {j} (n))}

qayerda ${ displaystyle phi ^ { prime}}$ yuqorida tavsiflangan aktivizatsiya funktsiyasining hosilasi bo'lib, o'zi farq qilmaydi. Og'irliklarning yashirin tugunga o'zgarishi uchun tahlil qilish qiyinroq, ammo tegishli lotin ekanligini ko'rsatish mumkin

{ displaystyle - { frac { kısalt { mathcal {E}} (n)} { qisman v_ {j} (n)}} = phi ^ { prime} (v_ {j} (n)) sum _ {k} - { frac { qisman { mathcal {E}} (n)} { qismli v_ {k} (n)}} w_ {kj} (n)}

.

Bu vaznning o'zgarishiga bog'liq ${ displaystyle k}$ chiqish qatlamini ifodalovchi th tugunlari. Shunday qilib, yashirin qatlam og'irliklarini o'zgartirish uchun chiqish qatlamining og'irliklari aktivizatsiya funktsiyasining lotiniga qarab o'zgaradi va shuning uchun bu algoritm aktivlashtirish funktsiyasining orqaga qaytishini anglatadi.^[5]

Terminologiya

"Ko'p qatlamli pertseptron" atamasi ko'p qatlamli bitta pertseptronni nazarda tutmaydi. Aksincha, u qatlamlarga birlashtirilgan ko'plab perseptronlarni o'z ichiga oladi. Shu bilan bir qatorda "ko'p qavatli perceptron tarmog'i" mavjud. Bundan tashqari, MLP "perceptrons" mumkin bo'lgan qat'iy ma'noda perkeptron emas. Haqiqiy pertseptronlar rasmiy ravishda sun'iy neyronlarning maxsus hodisasidir, ular Heaviside qadam funktsiyasi. MLP pertseptronlari o'zboshimchalik bilan faollashtirish funktsiyalaridan foydalanishi mumkin. Haqiqiy perceptron ishlaydi ikkilik tasniflash, MLP neyroni aktivizatsiya funktsiyasiga qarab tasniflash yoki regressiya qilishda erkindir.

Keyinchalik "ko'p qatlamli pertseptron" atamasi, ayniqsa, pertseptronlardan emas, balki o'zboshimchalik bilan aniqlangan sun'iy neyronlardan iborat bo'lishi mumkin bo'lgan tugunlar / qatlamlar tabiatiga nisbatan qo'llanilmagan. Ushbu talqin "pertseptron" ta'rifini yumshatishdan umuman sun'iy neyron degan ma'noni anglatadi.

Ilovalar

MLPlar muammolarni stoxastik echish qobiliyati bilan tadqiqotlarda foydalidir, bu ko'pincha taxminiy echimlarni juda yuqori darajaga etkazishga imkon beradi murakkab kabi muammolar fitnessni taxmin qilish.

MLPlar universal funktsiya taxminiy apparati bo'lib, Cybenko teoremasida ko'rsatilgan,^[4] shuning uchun ular yordamida regressiya tahlili orqali matematik modellarni yaratish mumkin. Sifatida tasnif ning alohida holati regressiya javob o'zgaruvchisi bo'lganda toifali, MLPlar yaxshi klassifikator algoritmlarini yaratadilar.

MLP-lar 1980-yillarda mashina o'rganishning mashhur echimi bo'lib, turli sohalarda dasturlarni topdi nutqni aniqlash, tasvirni aniqlash va mashina tarjimasi dasturiy ta'minot,^[6] ammo keyinchalik ancha sodda (va bog'liq bo'lgan) kuchli raqobatga duch keldi^[7]) qo'llab-quvvatlash vektorli mashinalar. Muvaffaqiyatlari tufayli backpropagation tarmoqlariga qiziqish qaytdi chuqur o'rganish.

Adabiyotlar

^ Xeti, Trevor. Tibshirani, Robert. Fridman, Jerom. Statistik o'rganish elementlari: Ma'lumotlarni qazib olish, xulosa chiqarish va bashorat qilish. Springer, Nyu-York, NY, 2009 yil.
^ Rozenblatt, Frank. x. Neyrodinamika asoslari: pertseptronlar va miya mexanizmlari nazariyasi. Spartan Books, Vashington, DC, 1961 yil
^ Rumelxart, Devid E., Geoffri E. Xinton va R. J. Uilyams. "Xatolarni ko'paytirish orqali ichki vakilliklarni o'rganish ". Devid E. Rumelxart, Jeyms L. Makklelland va PDP tadqiqot guruhi. (Tahrirlovchilar), Parallel taqsimlangan ishlov berish: Kognitiv mikroyapıdaki tadqiqotlar, 1-jild: Foundation. MIT Press, 1986.
^ ^a ^b Cybenko, G. 1989. Sigmoidal funktsiyani superpozitsiyalar bilan yaqinlashtirish Boshqarish, signallar va tizimlar matematikasi, 2(4), 303–314.
^ Xeykin, Simon (1998). Neyron tarmoqlari: keng qamrovli asos (2 nashr). Prentice Hall. ISBN 0-13-273350-1.
^ Neyron tarmoqlari. II. Ular nima va hozir nima uchun hamma ularga qiziqish bildirmoqda ?; Vasserman, P.D.; Shvarts, T .; Sahifa (lar): 10-15; IEEE Expert, 1988 yil, 3-jild, 1-son
^ R. Kollobert va S. Bengio (2004). Pertseptronlar, MLPlar va SVMlar orasidagi bog'lanishlar. Proc. Xalqaro Konf. Machine Learning (ICML) bo'yicha.

Tashqi havolalar

Backpropagation-ga yumshoq kirish - Shashi Sathyanarayana tomonidan intuitiv qo'llanma Bu ilgari bu erda bog'langan blog maqolasining yangilangan PDF versiyasi. Ushbu maqolada algoritmni amalga oshirish uchun psevdokod ("Neyron tarmoqlarini o'qitish uchun o'quv g'ildiraklari") mavjud.
Weka: ko'p qatlamli pertseptronlarni tatbiq etish bilan ma'lumotni qazib olish bo'yicha ochiq manbali dastur.
Neuroph Studio hujjatlari ushbu algoritmni va boshqalarni amalga oshiradi.

[1] Xeti, Trevor. Tibshirani, Robert. Fridman, Jerom. Statistik o'rganish elementlari: Ma'lumotlarni qazib olish, xulosa chiqarish va bashorat qilish. Springer, Nyu-York, NY, 2009 yil.

[2] Rozenblatt, Frank. x. Neyrodinamika asoslari: pertseptronlar va miya mexanizmlari nazariyasi. Spartan Books, Vashington, DC, 1961 yil

[3] Rumelxart, Devid E., Geoffri E. Xinton va R. J. Uilyams. "Xatolarni ko'paytirish orqali ichki vakilliklarni o'rganish ". Devid E. Rumelxart, Jeyms L. Makklelland va PDP tadqiqot guruhi. (Tahrirlovchilar), Parallel taqsimlangan ishlov berish: Kognitiv mikroyapıdaki tadqiqotlar, 1-jild: Foundation. MIT Press, 1986.

[Cybenko1989-4] Cybenko, G. 1989. Sigmoidal funktsiyani superpozitsiyalar bilan yaqinlashtirish Boshqarish, signallar va tizimlar matematikasi, 2(4), 303–314.

[5] Xeykin, Simon (1998). Neyron tarmoqlari: keng qamrovli asos (2 nashr). Prentice Hall. ISBN 0-13-273350-1.

[6] Neyron tarmoqlari. II. Ular nima va hozir nima uchun hamma ularga qiziqish bildirmoqda ?; Vasserman, P.D.; Shvarts, T .; Sahifa (lar): 10-15; IEEE Expert, 1988 yil, 3-jild, 1-son

[7] R. Kollobert va S. Bengio (2004). Pertseptronlar, MLPlar va SVMlar orasidagi bog'lanishlar. Proc. Xalqaro Konf. Machine Learning (ICML) bo'yicha.

[1]

[2]

[3]

[4]

[5]

[6]

[7]