AlphaGo Zero - AlphaGo Zero

AlphaGo Zero ning versiyasi DeepMind "s Dasturiy ta'minotga o'ting AlphaGo. AlphaGo jamoasi jurnalda maqola chop etdi Tabiat 2017 yil 19-oktabrda AlphaGo Zero-ni, inson o'yinlaridan olingan ma'lumotlardan foydalanmasdan yaratilgan va avvalgi har qanday versiyadan kuchliroq versiyani taqdim etmoqda.^[1] O'ziga qarshi o'yinlar o'ynab, AlphaGo Zero kuchidan ustun keldi AlphaGo Li uch kun ichida 100 o'yinni 0 ga yutib, darajasiga yetdi AlphaGo ustasi 21 kun ichida va 40 kun ichida barcha eski versiyalardan oshib ketdi.^[2]

O'qitish sun'iy intellekt Inson mutaxassislaridan olingan ma'lumotlar to'plamlarisiz (AI) AHni g'ayritabiiy ko'nikmalarga ega bo'lishiga katta ta'sir ko'rsatadi, chunki ekspert ma'lumotlari "ko'pincha qimmat, ishonchsiz yoki oddiygina mavjud emas".^[3] Demis Xassabis, DeepMind asoschilaridan biri va bosh ijrochi direktori AlphaGo Zero juda kuchli ekanligini aytdi, chunki u "endi inson bilimlari chegarasi bilan cheklanmagan".^[4] Devid Kumush, DeepMind maqolalarining birinchi mualliflaridan biri Tabiat AlphaGo-da, odamlardan o'rganish zarurligini olib tashlab, sun'iy intellekt algoritmlarini umumlashtirish mumkin, dedi.^[5]

Google keyinchalik rivojlandi AlphaZero, o'ynashi mumkin bo'lgan AlphaGo Zero-ning umumlashtirilgan versiyasi shaxmat va Shōgi Goga qo'shimcha ravishda. 2017 yil dekabr oyida AlphaZero AlphaGo Zero-ning 3 kunlik versiyasini 60 ta o'yinda 40 ta g'alaba bilan mag'lubiyatga uchratdi va 8 soatlik mashg'ulot bilan bu ko'rsatkichdan ustun keldi AlphaGo Li bo'yicha Elo o'lchovi. AlphaZero shuningdek, eng yaxshi shaxmat dasturini mag'lub etdi (Stokfish ) va eng yaxshi Shōgi dasturi (Elmo ).^[6]^[7]

O'qitish

AlphaGo Zero-ning neyron tarmog'i yordamida o'qitildi TensorFlow, 64 GPU ishchilari va 19 protsessor parametrlari serverlari bilan, faqat to'rttasi TPUlar xulosa qilish uchun ishlatilgan. The neyron tarmoq dastlab hech narsa bilmas edi Boring tashqari qoidalar. AlphaGo-ning oldingi versiyalaridan farqli o'laroq, Zero, odatiy bo'lmagan Go kengashi pozitsiyalarini aniqlashga yordam beradigan kamdan-kam odam tomonidan dasturlashtirilgan chekka holatlarga ega bo'lish o'rniga, faqat taxta toshlarini sezar edi. AI shug'ullanadi mustahkamlashni o'rganish, o'z harakatlarini oldindan bilib bo'lmaguncha va bu harakatlar o'yin natijasiga qanday ta'sir qilishiga qadar o'ziga qarshi o'ynash.^[8] Dastlabki uch kun ichida AlphaGo Zero o'zining ketma-ket 4,9 million o'yinini o'ziga qarshi o'tkazdi.^[9] Bu bir necha kun ichida eng yaxshi odamlarni mag'lub etish uchun zarur bo'lgan ko'nikmalarni rivojlantirdi, oldingi AlphaGo esa bir xil darajaga erishish uchun bir necha oy davomida mashq qildi.^[10]

Taqqoslash uchun, tadqiqotchilar AlphaGo Zero versiyasini AlphaGo Master inson o'yinlari yordamida tayyorladilar va u tezroq o'rganilganligini, ammo uzoq muddatda haqiqatan ham yomonroq ishlashini aniqladilar.^[11] DeepMind dastlabki natijalarini qog'ozga taqdim etdi Tabiat keyin 2017 yil oktyabrida nashr etilgan 2017 yil aprelida.^[1]

Uskuna narxi

2017 yilda bitta AlphaGo Zero tizimining apparati narxi, shu jumladan to'rtta TPU 25 million dollar atrofida baholandi.^[12]

Ilovalar

Hassabisning fikriga ko'ra, AlphaGo algoritmlari, ehtimol juda katta imkoniyatlar orqali aqlli izlashni talab qiladigan domenlarga ko'proq foyda keltirishi mumkin. oqsilni katlama yoki kimyoviy reaktsiyalarni aniq simulyatsiya qilish.^[13] AlphaGo texnikasi, ehtimol, simulyatsiya qilish qiyin bo'lgan domenlarda kamroq foydalidir, masalan, avtomobil boshqarishni o'rganish.^[14] DeepMind 2017 yil oktyabr oyida AlphaGo Zero texnologiyasidan oqsillarni katlama uchun ishlatishga urinish bo'yicha faol ish boshlaganligini aytdi va tez orada yangi topilmalarni nashr etishini ma'lum qildi.^[15]^[16]

Qabul qilish

AlphaGo Zero, garchi uning poydevori bo'lgan AlphaGo bilan taqqoslaganda ham, muhim avans sifatida qabul qilindi. Oren Etzioni ning Allen Sun'iy intellekt instituti AlphaGo Zero "buni juda qobiliyatli texnik natija" deb atadi, chunki "buni bajarish qobiliyati ham, to'rt kunlik TPU da tizimni 40 kun ichida o'rgatish qobiliyati".^[8] Guardian Eleni Vasilakining so'zlariga asoslanib, buni "sun'iy aql uchun katta yutuq" deb atadi Sheffild universiteti va Tom Mitchell Karnegi Mellon universiteti, buni tegishlicha "ajoyib muhandislik yutug'i" deb atagan.^[14] Mark Pesce Sidney universiteti xodimi AlphaGo Zero bizni "ochilmagan hudud" ga olib boradigan "katta texnologik taraqqiyot" deb atadi.^[17]

Gari Markus, da psixolog Nyu-York universiteti, biz bilganimizdek, AlphaGo "dasturchilar Go kabi muammolarni o'ynash uchun qanday qilib mashinalarni qurish kerakligi to'g'risida aniq ma'lumotga ega bo'lishlari" mumkinligi va ularning asosiy arxitekturasi juda samarali ekanligiga ishonch hosil qilishdan oldin boshqa domenlarda tekshirilishi kerakligi haqida ogohlantirdi. Go o'ynashdan ham ko'proq. Aksincha, DeepMind "ushbu yondashuv ko'plab domenlar uchun umumiy bo'lishi mumkinligiga ishonch hosil qiladi".^[9]

Hisobotlarga javoban, Janubiy Koreyalik Go professional Li Sedol "AlphaGo-ning oldingi versiyasi mukammal emas edi va shuning uchun AlphaGo Zero ishlab chiqarilgan deb o'ylayman." AlphaGo-ning rivojlanish potentsiali to'g'risida Li kutish va ko'rish kerakligini aytdi, ammo bu Go-ning yosh o'yinchilariga ta'sir qilishini aytdi.Mok Jin-seok, Janubiy Koreya milliy Go jamoasini boshqaradigan Go dunyosi allaqachon AlphaGo-ning oldingi versiyalaridagi o'yin uslublariga taqlid qilgani va ulardan yangi g'oyalarni yaratayotgani va AlphaGo Zero-dan yangi g'oyalar chiqishiga umid qilishini aytdi. Mok shuningdek, Go dunyosidagi umumiy tendentsiyalarga AlphaGo-ning o'yin uslubi ta'sir ko'rsatayotganini qo'shimcha qildi. "Avvaliga buni tushunish qiyin edi va o'zimni deyarli o'zga sayyoralikka qarshi o'ynagandek his qilardim. Ammo, katta tajribaga ega bo'lganim sababli, bunga odatlanib qolganman", dedi Mok. "Biz hozirda AlphaGo va odamlar qobiliyatlari o'rtasidagi farqni muhokama qiladigan nuqtadan o'tdik. Endi kompyuterlar o'rtasida." Mok allaqachon AlphaGo Zero o'yin uslubini milliy terma jamoa futbolchilari bilan birgalikda tahlil qilishni boshlagan. "Garchi tomosha qilgan bo'lsak ham faqat bir nechta o'yin, biz AlphaGo Zero avvalgilariga qaraganda odamga o'xshab o'ynaydi degan taassurot oldik ", dedi Mok.^[18]Chinese Go professional, Ke Jie yangi dasturning ajoyib yutuqlari haqida quyidagicha izoh berdi: "O'zini o'zi o'rganadigan sof AlphaGo eng kuchli. Odamlar o'zlarini takomillashtirish oldida keraksiz bo'lib tuyuladi."^[19]

Oldingilar bilan taqqoslash

Konfiguratsiya va quvvat^[20]
Versiyalar	Uskunani ijro etish^[21]	Elo reytingi	Uchrashuvlar
AlphaGo muxlisi	176 Grafik protsessorlar,^[2] tarqatildi	3,144^[1]	5: 0 qarshi Fan Hui
AlphaGo Li	48 TPUlar,^[2] tarqatildi	3,739^[1]	4: 1 qarshi Li Sedol
AlphaGo ustasi	4 ta TPU,^[2] bitta mashina	4,858^[1]	Professional futbolchilarga qarshi 60: 0; Sammitning kelajagi
AlphaGo Zero (40 kun)	4 ta TPU,^[2] bitta mashina	5,185^[1]	AlphaGo Liga qarshi 100: 0 AlphaGo Masterga qarshi 89:11
AlphaZero (34 soat)	4 ta TPU, bitta mashina^[6]	4.430 (taxminiy)^[6]	3-kunlik AlphaGo Zero-ga qarshi 60:40

AlphaZero

2017 yil 5-dekabr kuni DeepMind jamoasi oldindan chop etdi arXiv AlphaZero dasturini joriy qilib, AlphaGo Zero-ning umumlashtirilgan yondashuvidan foydalanib, 24 soat ichida g'ayritabiiy o'yin darajasiga erishdi. shaxmat, shogi va Boring, jahon chempioni dasturlarini mag'lub etish, Stokfish, Elmo va har holda AlphaGo Zero-ning 3 kunlik versiyasi.^[6]

AlphaZero (AZ) - AlphaGo Zero (AGZ) ning umumlashtirilgan variantidir algoritm, shogi va shaxmat bilan bir qatorda Goda ham o'ynashga qodir. AZ va AGZ o'rtasidagi farqlarga quyidagilar kiradi:^[6]

AZ qidiruvni o'rnatish uchun qattiq kodlangan qoidalarga ega giperparametrlar.
Endi neyron tarmoq doimiy ravishda yangilanadi.
Shaxmat (Go-dan farqli o'laroq) galstuk bilan yakunlanishi mumkin; shu sababli AZ durang o'yinini hisobga olishi mumkin.

An ochiq manba dastur, Leela Zero, AlphaGo hujjatlaridagi g'oyalar asosida mavjud. Bu ishlatadi GPU o'rniga TPUlar AlphaGo-ning so'nggi versiyalari ishonadi.

Adabiyotlar

^ ^a ^b ^v ^d ^e ^f Kumush, Devid; Shrittvayzer, Julian; Simonyan, Karen; Antonoglou, Ioannis; Xuang, Aja; Guez, Artur; Gubert, Tomas; Beyker, Lukas; Lay, Metyu; Bolton, Adrian; Chen, Yutian; Lillicrap, Timo'tiy; Fan, Hui; Sifre, Loran; Driessche, Jorj van den; Graepel, Thor; Xassabis, Demis (19 oktyabr 2017 yil). "Inson bilmasdan Go o'yinini o'zlashtirish" (PDF). Tabiat. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038 / tabiat24270. ISSN 0028-0836. PMID 29052630.
^ ^a ^b ^v ^d ^e Xassabis, Demis; Siver, Dovud (18 oktyabr 2017 yil). "AlphaGo Zero: noldan o'rganish". DeepMind rasmiy veb-sayt. Olingan 19 oktyabr 2017.
^ "Google-ning yangi AlphaGo yutug'i bironta ham odam bo'lmagan algoritmlarni qabul qilishi mumkin". Yahoo! Moliya. 19 oktyabr 2017 yil. Olingan 19 oktyabr 2017.
^ Knapton, Sara (18 oktyabr 2017). "AlphaGo Zero: Google DeepMind superkompyuteri insoniyatning 3000 yillik bilimlarini 40 kun ichida o'rganadi". Telegraf. Olingan 19 oktyabr 2017.
^ "DeepMind AlphaGo Zero o'z-o'zidan go'sht sumkasining aralashuvisiz o'rganadi". ZDNet. 19 oktyabr 2017 yil. Olingan 20 oktyabr 2017.
^ ^a ^b ^v ^d ^e Kumush, Devid; Gubert, Tomas; Shrittvayzer, Julian; Antonoglou, Ioannis; Lay, Metyu; Guez, Artur; Lanktot, Mark; Sifre, Loran; Kumaran, Dharshan; Graepel, Thor; Lillicrap, Timo'tiy; Simonyan, Karen; Xassabis, Demis (2017 yil 5-dekabr). "Shaxmat va shogi o'yinlarini umumiy kuchaytirish algoritmi bilan o'z-o'zini o'ynash orqali o'zlashtirish". arXiv:1712.01815 [cs.AI ].
^ Knapton, Sara; Vatson, Leon (2017 yil 6-dekabr). "To'rt soat ichida DeepMind's AlphaZero tomonidan o'rganilgan va undan ustun bo'lgan insoniyatning shaxmat bo'yicha barcha bilimlari". Telegraf.
^ ^a ^b Grinmeyyer, Larri. "AIga qarshi sun'iy intellekt: o'z-o'zini o'rgatadigan AlphaGo nol o'zidan avvalgisini mag'lub etdi". Ilmiy Amerika. Olingan 20 oktyabr 2017.
^ ^a ^b "Kompyuter insonni bilmasdan g'ayritabiiy darajalarda o'ynashni o'rganadi'". Milliy radio. 18 oktyabr 2017 yil. Olingan 20 oktyabr 2017.
^ "Google-ning yangi AlphaGo yutug'i bironta ham odam bo'lmagan algoritmlarni qabul qilishi mumkin". Baxt. 19 oktyabr 2017 yil. Olingan 20 oktyabr 2017.
^ "Ushbu kompyuter dasturi Go-da odamlarni mag'lub etishi mumkin - hech qanday insoniy ko'rsatmalarsiz". Ilm | AAAS. 18 oktyabr 2017 yil. Olingan 20 oktyabr 2017.
^ Gibni, Yelizaveta (2017 yil 18 oktyabr). "O'z-o'zini o'rgatgan sun'iy intellekt hali Go strategiyasida eng yaxshi". Tabiat yangiliklari. doi:10.1038 / tabiat.2017.22858. Olingan 10 may 2020.
^ "Eng so'nggi sun'iy intellekt narsalarni o'rgatmasdan hal qilishi mumkin". Iqtisodchi. Olingan 20 oktyabr 2017.
^ ^a ^b Namuna, Yan (18 oktyabr 2017 yil). "'O'zi bilim yaratishga qodir ": Google o'zi o'rganadigan sun'iy intellektni ochib beradi". Guardian. Olingan 20 oktyabr 2017.
^ "'O'zi bilim yaratishga qodir ": Google o'zi o'rganadigan sun'iy intellektni ochib beradi". Guardian. 18 oktyabr 2017 yil. Olingan 26 dekabr 2017.
^ Knapton, Sara (18 oktyabr 2017). "AlphaGo Zero: Google DeepMind superkompyuteri insoniyatning 3000 yillik bilimlarini 40 kun ichida o'rganadi". Telegraf. Olingan 26 dekabr 2017.
^ "Google-ning yangi sun'iy intellekti sizni eng murakkab o'yinlarda sizni engishga qanday o'rgatishi mumkin". Avstraliya teleradioeshittirish korporatsiyasi. 19 oktyabr 2017 yil. Olingan 20 oktyabr 2017.
^ "" Odamlarga o'xshash "AlphaGo Zero o'yinchilaridan hayajonlaning". Koreya Bizwire. 19 oktyabr 2017 yil. Olingan 21 oktyabr 2017.
^ "AlphaGo-ning yangi versiyasi Weiqi-ni inson yordamisiz o'zlashtirishi mumkin". China News Service. 19 oktyabr 2017 yil. Olingan 21 oktyabr 2017.
^ "【柯洁战败解密】 AlphaGo Master 最新架构和算法，谷歌云与 TPU 拆解" (xitoy tilida). Sohu. 2017 yil 24-may. Olingan 1 iyun 2017.
^ Trening davomida ishlatiladigan texnik vositalar sezilarli darajada kuchliroq bo'lishi mumkin

Tashqi havolalar va qo'shimcha o'qish

AlphaGo blogi
Singh, S .; Okun, A .; Jekson, A. (2017). "AOP". Tabiat. 550 (7676): 336–337. Bibcode:2017Natur.550..336S. doi:10.1038 / 550336a. PMID 29052631.
Kumush, Devid; Shrittvayzer, Julian; Simonyan, Karen; Antonoglou, Ioannis; Xuang, Aja; Guez, Artur; Gubert, Tomas; Beyker, Lukas; Lay, Metyu; Bolton, Adrian; Chen, Yutian; Lillicrap, Timo'tiy; Hui, fan; Sifre, Loran; Van Den Driessche, Jorj; Graepel, Thor; Hassabis, Demis (2017). "Inson bilmasdan Go o'yinini o'zlashtirish" (PDF). Tabiat. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038 / tabiat24270. PMID 29052630.
AlphaGo Zero Games
Reddit-dagi AMA

[Nature2017-1] v ^d ^e ^f Kumush, Devid; Shrittvayzer, Julian; Simonyan, Karen; Antonoglou, Ioannis; Xuang, Aja; Guez, Artur; Gubert, Tomas; Beyker, Lukas; Lay, Metyu; Bolton, Adrian; Chen, Yutian; Lillicrap, Timo'tiy; Fan, Hui; Sifre, Loran; Driessche, Jorj van den; Graepel, Thor; Xassabis, Demis (19 oktyabr 2017 yil). "Inson bilmasdan Go o'yinini o'zlashtirish" (PDF). Tabiat. 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038 / tabiat24270. ISSN 0028-0836. PMID 29052630.

[Deepmind20171018-2] v ^d ^e Xassabis, Demis; Siver, Dovud (18 oktyabr 2017 yil). "AlphaGo Zero: noldan o'rganish". DeepMind rasmiy veb-sayt. Olingan 19 oktyabr 2017.

[3] "Google-ning yangi AlphaGo yutug'i bironta ham odam bo'lmagan algoritmlarni qabul qilishi mumkin". Yahoo! Moliya. 19 oktyabr 2017 yil. Olingan 19 oktyabr 2017.

[4] Knapton, Sara (18 oktyabr 2017). "AlphaGo Zero: Google DeepMind superkompyuteri insoniyatning 3000 yillik bilimlarini 40 kun ichida o'rganadi". Telegraf. Olingan 19 oktyabr 2017.

[5] "DeepMind AlphaGo Zero o'z-o'zidan go'sht sumkasining aralashuvisiz o'rganadi". ZDNet. 19 oktyabr 2017 yil. Olingan 20 oktyabr 2017.

[preprint-6] v ^d ^e Kumush, Devid; Gubert, Tomas; Shrittvayzer, Julian; Antonoglou, Ioannis; Lay, Metyu; Guez, Artur; Lanktot, Mark; Sifre, Loran; Kumaran, Dharshan; Graepel, Thor; Lillicrap, Timo'tiy; Simonyan, Karen; Xassabis, Demis (2017 yil 5-dekabr). "Shaxmat va shogi o'yinlarini umumiy kuchaytirish algoritmi bilan o'z-o'zini o'ynash orqali o'zlashtirish". arXiv:1712.01815 [cs.AI ].

[7] Knapton, Sara; Vatson, Leon (2017 yil 6-dekabr). "To'rt soat ichida DeepMind's AlphaZero tomonidan o'rganilgan va undan ustun bo'lgan insoniyatning shaxmat bo'yicha barcha bilimlari". Telegraf.

[Scientific_American-8] Grinmeyyer, Larri. "AIga qarshi sun'iy intellekt: o'z-o'zini o'rgatadigan AlphaGo nol o'zidan avvalgisini mag'lub etdi". Ilmiy Amerika. Olingan 20 oktyabr 2017.

[npr-9] "Kompyuter insonni bilmasdan g'ayritabiiy darajalarda o'ynashni o'rganadi'". Milliy radio. 18 oktyabr 2017 yil. Olingan 20 oktyabr 2017.

[10] "Google-ning yangi AlphaGo yutug'i bironta ham odam bo'lmagan algoritmlarni qabul qilishi mumkin". Baxt. 19 oktyabr 2017 yil. Olingan 20 oktyabr 2017.

[11] "Ushbu kompyuter dasturi Go-da odamlarni mag'lub etishi mumkin - hech qanday insoniy ko'rsatmalarsiz". Ilm | AAAS. 18 oktyabr 2017 yil. Olingan 20 oktyabr 2017.

[12] Gibni, Yelizaveta (2017 yil 18 oktyabr). "O'z-o'zini o'rgatgan sun'iy intellekt hali Go strategiyasida eng yaxshi". Tabiat yangiliklari. doi:10.1038 / tabiat.2017.22858. Olingan 10 may 2020.

[13] "Eng so'nggi sun'iy intellekt narsalarni o'rgatmasdan hal qilishi mumkin". Iqtisodchi. Olingan 20 oktyabr 2017.

[guardian-14] Namuna, Yan (18 oktyabr 2017 yil). "'O'zi bilim yaratishga qodir ": Google o'zi o'rganadigan sun'iy intellektni ochib beradi". Guardian. Olingan 20 oktyabr 2017.

[15] "'O'zi bilim yaratishga qodir ": Google o'zi o'rganadigan sun'iy intellektni ochib beradi". Guardian. 18 oktyabr 2017 yil. Olingan 26 dekabr 2017.

[16] Knapton, Sara (18 oktyabr 2017). "AlphaGo Zero: Google DeepMind superkompyuteri insoniyatning 3000 yillik bilimlarini 40 kun ichida o'rganadi". Telegraf. Olingan 26 dekabr 2017.

[17] "Google-ning yangi sun'iy intellekti sizni eng murakkab o'yinlarda sizni engishga qanday o'rgatishi mumkin". Avstraliya teleradioeshittirish korporatsiyasi. 19 oktyabr 2017 yil. Olingan 20 oktyabr 2017.

[18] "" Odamlarga o'xshash "AlphaGo Zero o'yinchilaridan hayajonlaning". Koreya Bizwire. 19 oktyabr 2017 yil. Olingan 21 oktyabr 2017.

[19] "AlphaGo-ning yangi versiyasi Weiqi-ni inson yordamisiz o'zlashtirishi mumkin". China News Service. 19 oktyabr 2017 yil. Olingan 21 oktyabr 2017.

[sohu0524-20] "【柯洁战败解密】 AlphaGo Master 最新架构和算法，谷歌云与 TPU 拆解" (xitoy tilida). Sohu. 2017 yil 24-may. Olingan 1 iyun 2017.

[21] Trening davomida ishlatiladigan texnik vositalar sezilarli darajada kuchliroq bo'lishi mumkin

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]