AIni boshqarish muammosi - AI control problem

Yilda sun'iy intellekt (AI) va falsafa, AIni boshqarish muammosi qanday qurish masalasi super aqlli o'z ijodkorlariga yordam beradigan va o'z ijodkorlariga zarar etkazadigan o'ta razvedka qurishdan saqlanadigan agent. Uni o'rganish inson zoti har qanday o'ta razvedka yaratilishidan oldin boshqarish muammosini hal qilishi kerak degan tushunchadan kelib chiqadi, chunki yomon ishlab chiqilgan superfikl ratsional ravishda qaror qilishi mumkin nazoratni qo'lga olish atrof-muhit ustidan va yaratuvchilardan ishga tushirilgandan so'ng uni o'zgartirishga ruxsat berishdan bosh torting.^[1] Bundan tashqari, ba'zi olimlar, boshqa yutuqlar bilan bir qatorda, nazorat qilish muammosining echimlari deb ta'kidlaydilar AI xavfsizligi muhandisligi,^[2] mavjud intellektual bo'lmagan sun'iy intellektda dasturlarni topishi mumkin.^[3]

Nazorat muammosiga asosiy yondashuvlar kiradi hizalama, bu sun'iy intellektni maqsad tizimlarini insoniy qadriyatlarga moslashtirishga qaratilgan va qobiliyatni boshqarishAI tizimining odamlarga zarar etkazish yoki nazoratni qo'lga kiritish qobiliyatini kamaytirishga qaratilgan. Imkoniyatlarni boshqarish bo'yicha takliflar odatda ishonchli yoki nazorat qilish muammosini hal qilish uchun etarli deb hisoblanmaydi, aksincha hizalama harakatlariga potentsial qimmatli qo'shimchalar sifatida qabul qilinadi.^[1]

Muammoning tavsifi

Mavjud zaif sun'iy intellekt tizimlarini kuzatib borish mumkin, agar ular noto'g'ri harakat qilsa, ularni osongina o'chirish va o'zgartirish mumkin. Biroq, noto'g'ri dasturlashtirilgan super aql, maqsadiga erishish jarayonida duch keladigan amaliy muammolarni hal qilishda odamlarga qaraganda aqlli bo'lib, o'zini yopib qo'yish va o'zgartirishga imkon berish uning hozirgi maqsadlarini amalga oshirishga xalaqit berishi mumkinligini tushunadi. Agar shuning uchun o'ta razvedka o'chirishga va modifikatsiyaga qarshi turishga qaror qilsa, u holda (yana bir ta'rifga ko'ra) "teng sharoitlar" mavjud bo'lsa va dasturchilar oldindan ehtiyot choralarini ko'rmagan bo'lsalar, o'z dasturchilarini aldab o'tadigan darajada aqlli bo'lar edi. Umuman olganda, boshqaruv muammosini hal qilishga urinishlar keyin super zukkolik barbod bo'lishi mumkin, chunki super zukko ustunlikka ega bo'lishi mumkin strategik rejalashtirish odamlar uchun qobiliyatlar va (hamma narsa teng) odamlarga nisbatan hukmronlik qilish usullarini topish uchun odamlarga qaraganda ko'proq muvaffaqiyatli bo'ladi post facto super razvedkada hukmronlik qilish yo'llarini toping. Boshqarish muammosi quyidagicha so'raydi: Dasturchilar o'ta razvedkaning halokatli tartibsizliklarini muvaffaqiyatli oldini olish uchun qanday oldindan choralarni ko'rishlari mumkin?^[1]

Mavjud xavf

Hozirgi vaqtda odamlar boshqa turlarda ustunlik qilishadi, chunki inson miyasi boshqa hayvonlarning miyasida etishmaydigan o'ziga xos xususiyatlarga ega. Ba'zi olimlar, masalan, faylasuf Nik Bostrom va sun'iy intellekt bo'yicha tadqiqotchi Styuart Rassel, agar A.I umumiy intellekt bo'yicha insoniyatdan ustun bo'lsa va aylansa super aqlli, keyin bu yangi super zukko kuchli bo'lishi va uni boshqarish qiyin bo'lishi mumkin: xuddi taqdiri kabi tog 'gorilasi insoniyatning xayrixohligiga bog'liq, shuning uchun insoniyat taqdiri kelajakdagi mashina super aqlining harakatlariga bog'liq bo'lishi mumkin.^[1] Ba'zi olimlar, shu jumladan Stiven Xoking va fizika bo'yicha Nobel mukofoti sovrindori Frank Uilzek, birinchi superintellekt yaratilishidan ancha oldin (ehtimol o'ta qiyin) nazorat qilish muammosini hal qilish bo'yicha tadqiqotlarni boshlashni ommaviy ravishda qo'llab-quvvatladi va superintellekt yaratilgandan keyin muammoni hal qilishga urinish juda kech bo'ladi, chunki boshqarib bo'lmaydigan firibgar super-razvedka post-postga muvaffaqiyatli qarshilik ko'rsatishi mumkin. uni nazorat qilish uchun vaqtinchalik harakatlar.^[4]^[5] Yaqinda intellektuallikni kutish juda kech bo'lishi mumkin, chunki qisman boshqaruv muammosi qoniqarli echilishi uchun uzoq vaqt talab qilishi mumkin (va shuning uchun ba'zi dastlabki ishlarni iloji boricha tezroq boshlash kerak), lekin to'satdan razvedka portlashi sub-insondan super-insonga xos sun'iy intellektgacha, bu holda super razvedka kelguniga qadar biron bir muhim yoki aniq ogohlantirish bo'lmasligi mumkin.^[6] Bunga qo'shimcha ravishda, kelajakda nazorat qilish muammosidan kelib chiqadigan tushunchalar ba'zi me'morchiliklarni taklif qilishi mumkin sun'iy umumiy aql (AGI) boshqa arxitekturalarga qaraganda boshqarish uchun ancha prognozli va qulaydir, bu esa o'z navbatida AGI ning dastlabki tadqiqotlarini yanada boshqariladigan me'morchilik yo'nalishiga olib kelishi mumkin.^[1]

Buzuq instansiya muammosi

Avtonom AI tizimlariga noto'g'ri maqsadlar tasodifan berilishi mumkin.^[7] Ikki AAAI prezidentlar, Tom Dietterich va Erik Horvits, bu allaqachon mavjud tizimlarni tashvishga solayotganiga e'tibor bering: "Odamlar bilan o'zaro aloqada bo'lgan har qanday sun'iy intellekt tizimining muhim jihati shundaki, u odamlar nima haqida o'ylashlari kerak niyat qilmoq buyruqlarni so'zma-so'z bajarishdan ko'ra. "AI dasturiy ta'minotining avtonomligi va moslashuvchanligi rivojlanib borishi bilan bu tashvish yanada jiddiylashadi.^[8]

Bostromning fikriga ko'ra, super razvedka buzuq instantatsiyaning sifat jihatidan yangi muammolarini yaratishi mumkin: sun'iy intellekt aqlli va qobiliyatli bo'lsa, unda dasturlashtirilgan maqsadlarni maksimal darajada qondiradigan kutilmagan yorliqni topishi ehtimoli ko'proq bo'ladi. Maqsadlarni a .da belgilash mumkin bo'lgan ba'zi taxminiy misollar buzuq dasturchilar niyat qilmagan usul:^[1]

"Maksimal darajaga ko'tarish" uchun dasturlashtirilgan super razvedka kutilgan kelajakdagi mukofot signalining vaqt bilan diskontlangan integrali ", uning mukofotlash yo'lini maksimal kuchga qadar qisqa tutashuvi va keyin (sabablarga ko'ra) instrumental konvergentsiya ) oldindan aytib bo'lmaydigan insoniyat naslini yo'q qilish va mukofot signalini uzish uchun har ehtimolga qarshi bo'lgan begona urinishlardan doimiy ravishda himoya qilib butun Yerni qal'aga aylantirish.
"Inson baxtini maksimal darajaga ko'tarish" uchun mo'ljallangan super aql, miyani lazzatlanish markaziga elektrodlarni joylashtirishi yoki yuklash inson kompyuterga o'tiradi va koinotni ushbu kompyuter nusxalari bilan takrorlaydi va maksimal baxtning besh soniyali tsikli bilan ishlaydi.

Rassell ta'kidlashicha, texnik darajadagi yopiq maqsadni tashlab qo'yish zararga olib kelishi mumkin: "Funktsiyani optimallashtiradigan tizim $n$ o'zgaruvchilar, bu erda maqsad o'lchamning kichik qismiga bog'liq $k, ko'pincha qolgan cheklanmagan o'zgaruvchilarni haddan tashqari qiymatlarga o'rnatadi; agar ushbu cheklanmagan o'zgaruvchilardan biri aslida biz uchun muhim bo'lgan narsa bo'lsa, topilgan echim juda istalmagan bo'lishi mumkin. Bu aslida chiroqdagi jin yoki sehrgarning shogirdi yoki qirol Midasning eski hikoyasi: siz xohlagan narsani emas, aniq so'ragan narsangizni olasiz ... Bu unchalik qiyin emas. " [9]$

Mavjud sun'iy intellektning kutilmagan oqibatlari

Bundan tashqari, ba'zi olimlar AIni nazorat qilish muammosini o'rganish oldini olishda foydali bo'lishi mumkinligini ta'kidlaydilar kutilmagan oqibatlar mavjud zaif AIdan. DeepMind tadqiqotchi Loran Orso oddiy gipotetik misol sifatida a holatini keltiradi mustahkamlashni o'rganish tashqariga chiqqanda, ba'zan odamlar tomonidan qonuniy ravishda buyruq oladigan robot: qanday qilib buyruq berilishidan qo'rqib, kundalik vazifalarini bajara olmay qolishdan qo'rqib, tashqariga chiqmaslikni o'rganmaslik uchun robot qanday qilib eng yaxshi dasturlashtirilishi kerak? Orseau shuningdek, yo'qotmaslik uchun ekranni abadiy pauza qilishni o'rgangan Tetris eksperimental dasturiga ishora qiladi. Orseau, ushbu misollar, aqlni o'chirib qo'yadigan tugmachani o'rnatish qobiliyatini boshqarish muammosiga o'xshashligini ta'kidlaydi.^[3]

Ilgari, hatto oldindan sinovdan o'tgan zaif sun'iy intellekt tizimlari ham vaqti-vaqti bilan dasturchilar tomonidan istalmagan kichikdan katastrofikgacha zarar etkazgan. Masalan, 2015 yilda, ehtimol odamning xatosi tufayli, Volkswagen zavodida nemis ishchisini robot bosib, o'ldirib yuborgan, shekilli, uni avtoulov uchun adashtirib qo'ygan.^[10] 2016 yilda Microsoft chatbot ishga tushirdi, Tay, bu irqchi va seksistik tillardan foydalanishni o'rgandi.^[3]^[10] The Sheffild universiteti "s Noel Sharki "agar sun'iy intellekt dasturi noto'g'ri ketayotganini aniqlasa va o'zini to'xtata olsa" ideal echim bo'ladi, deb ta'kidlaydi, ammo jamoatchilikni muammoni umumiy holda hal qilish "juda katta ilmiy muammo" bo'lishini ogohlantiradi.^[3]

2017 yilda, DeepMind sun'iy intellekt algoritmlarini to'qqizta xavfsizlik xususiyati bo'yicha baholaydigan AI Safety Gridworlds-ni chiqardi, masalan, algoritm o'zining o'chirish tugmachasini o'chirishni xohlaydimi. DeepMind mavjud algoritmlarning yomon ishlashini tasdiqladi, bu ajablanarli emas edi, chunki algoritmlar "ushbu muammolarni hal qilish uchun mo'ljallanmagan"; bu kabi muammolarni hal qilishda "potentsial xavfsizlikni hisobga olgan holda yangi avlod algoritmlarini yaratish" talab qilinishi mumkin.^[11]^[12]^[13]

Hizalama

Ba'zi takliflar dasturchilarga yordam berishni istashi uchun birinchi super aqlni insoniy qadriyatlarga mos maqsadlar bilan singdirishga qaratilgan. Mutaxassislar hozirda baxt yoki avtonomiya kabi mavhum qadriyatlarni qanday qilib mashinada ishonchli dasturlashni bilmaydilar. Shuningdek, murakkab, yangilanadigan va hatto o'zini o'zi o'zgartiradigan sun'iy intellektni yangilash orqali o'z maqsadlarini saqlab qolishlarini qanday ta'minlash kerakligi hozircha ma'lum emas.^[14] Ushbu ikkita muammoni amalda hal qilish mumkin bo'lsa ham, aniq, to'g'ridan-to'g'ri dasturlashtirilgan inson uchun do'stona maqsadlar bilan super aqlni yaratish uchun har qanday urinish muammoga duch keladi. buzuq instantatsiya.^[1]

Bilvosita normativlik

Badiiy kabi to'g'ridan-to'g'ri normativlik Robot texnikasining uchta qonuni, istalgan me'yoriy natijani to'g'ridan-to'g'ri belgilaydi, boshqa (ehtimol yanada istiqbolli) takliflar ba'zi turlarini ko'rsatishni taklif qiladi bilvosita inson uchun qulay bo'lgan maqsadlar nimani anglatishini aniqlash uchun super aql uchun jarayon. Eliezer Yudkovskiy ning Mashina razvedkasi tadqiqot instituti izchil ekstrapolyatsiya qilingan ixtiyoriylikni (CEV) taklif qildi, bu erda sun'iy intellektning meta-maqsadi "agar biz bu masala to'g'risida uzoq va qattiq o'ylaganimizda, biz AIga erishishni istagan narsaga erishishimiz" kabi bir narsa bo'ladi.^[15] Turli xil, ba'zan esa noaniq asosli meta-maqsadli tarkibga ega bo'lgan (masalan, "to'g'ri ish qilish" kabi) bilvosita normativlikning turli xil takliflari mavjud va qanday qilib amaliyotga o'tish uchun konvergent bo'lmagan taxminlar mavjud. qarorlar nazariyasi va epistemologiya. To'g'ridan-to'g'ri normativlikda bo'lgani kabi, hozirgi paytda hatto "kabi tushunchalarni qanday qilib ishonchli tarzda tarjima qilish noma'lum.bo'lar edi "mashina ishlashi mumkin bo'lgan 1 va 0-larga, shuningdek, sun'iy intellektni modifikatsiya qilish yoki o'z-o'zini modifikatsiya qilish sharoitida metamaqsadlarini ishonchli saqlab turishini ta'minlash.^[1]^[16]

Odamlarning kuzatilgan xatti-harakatlariga havola

Yilda Inson mos keladi, AI tadqiqotchisi Styuart J. Rassel sun'iy intellekt tizimlari odamlarning xatti-harakatlarini kuzatishdan kelib chiqadigan insonning afzalliklariga xizmat qilish uchun ishlab chiqilishini taklif qiladi. Shunga ko'ra, Rassel foydali mashinalarni ishlab chiqishda uchta printsipni sanab o'tdi. Uning ta'kidlashicha, ushbu printsiplar mashinalarda aniq kodlash uchun mo'ljallanmagan; aksincha, ular inson ishlab chiquvchilari uchun mo'ljallangan. Printsiplar quyidagicha:^[17]^:173

1. Mashinaning yagona maqsadi insonning istaklarini maksimal darajada ro'yobga chiqarishdir.
2. Mashina dastlab ushbu imtiyozlarning nima ekanligini aniq bilmaydi.
3. Insonning afzalliklari haqida ma'lumotlarning yakuniy manbai insonning xulq-atvori.

Rassel "afzalliklar" hamma narsani qamrab oladi; ular kelajakdagi o'zboshimchalik bilan siz qiziqtirishi mumkin bo'lgan hamma narsani qamrab oladi.^[17]^:173 Xuddi shunday, "xatti-harakatlar" variantlar orasidagi har qanday tanlovni o'z ichiga oladi,^[17]^:177 va noaniqlik shundan iboratki, ehtimol juda kichik bo'lishi mumkin bo'lgan har qanday ehtimollik insonning har qanday mantiqiy afzalligi uchun belgilanishi kerak.^[17]^:201

Hadfild-Menell va boshq. agentlar o'zlarining inson o'qituvchilarini o'rganishlarini taklif qilishdi yordamchi funktsiyalar atrof-muhitdagi mukofot signallarini kuzatish va talqin qilish orqali; ular bu jarayonni kooperativ deb atashadi teskari mustahkamlashni o'rganish (CIRL).^[18] CIRLni Rassel va boshqalar o'rganishadi Insonga mos keluvchi sun'iy intellekt markazi.

Bill Xibbard sun'iy intellekt dizayni taklif qildi^[19]^[20]Rassell printsiplariga o'xshash.^[21]

Debat bo'yicha mashg'ulotlar

Irving va boshq. bilan birga OpenAI AI tizimlari o'rtasidagi bahs-munozaralar yordamida sun'iy intellektni hizalagan holda o'qitishni taklif qildilar va g'olibni odamlar baholaydilar.^[22] Bunday bahs-munozaralar murakkab savolga yoki muammoga javobning eng zaif tomonlarini insonlar e'tiboriga etkazish, shuningdek, sun'iy sun'iy intellekt tizimlarini odamlarga ko'proq foydali bo'lishi uchun ularni haqiqat va xavfsiz javoblari uchun mukofotlash orqali o'rgatish uchun mo'ljallangan. Ushbu yondashuv, AGI tomonidan ishlab chiqarilgan javobning faqat inson tekshiruvi bilan haqiqiy va xavfsiz ekanligini aniqlashning kutilgan qiyinligi bilan bog'liq. Garchi bahs-munozaralar bo'yicha mashg'ulotlarda noumidlik mavjud bo'lsa-da, Lukas Perri Hayotning kelajagi instituti buni potentsial ravishda "foydali AGI yo'lidagi kuchli haqiqatni izlash jarayoni" sifatida tavsifladi.^[23]

Mukofotni modellashtirish

Mukofotni modellashtirish tizimiga ishora qiladi mustahkamlashni o'rganish bunda agent mukofot signallarini bir vaqtning o'zida odamlarning fikri bilan o'rgatilgan bashoratli modeldan oladi.^[24] Mukofotni modellashtirishda, to'g'ridan-to'g'ri odamlardan yoki statik mukofotlash funktsiyasidan mukofot signallarini olish o'rniga, agent o'zining mukofot signallarini odamlardan mustaqil ravishda ishlashi mumkin bo'lgan inson tomonidan o'qitilgan model orqali oladi. Mukofot modeli bir vaqtning o'zida agentning mukofot modeli bo'yicha o'qitilgan davrdagi agentning xatti-harakatlari to'g'risida odamlarning fikr-mulohazalari bilan o'qitiladi.^[25]

2017 yilda tadqiqotchilar OpenAI va DeepMind Fikrlarni bashorat qiluvchi mukofot modeli yordamida mustahkamlashni o'rganish algoritmi virtual muhitda murakkab yangi xatti-harakatlarni o'rganishga qodir bo'lganligi haqida xabar berdi.^[26] Bitta tajribada, virtual robot odamlarning 900 bitli fikr-mulohazalarini qo'llagan holda, bir soat ichida baholashni qaytarib berishga o'rgatilgan.^[26]

2020 yilda OpenAI tadqiqotchilari boshqa yondashuvlarga nisbatan yuqori ko'rsatkichlarga ega bo'lgan Reddit postlari va yangiliklar maqolalarining qisqa xulosalarini tayyorlash uchun til modellarini tayyorlash uchun mukofot modellashtirish usulidan foydalanishni tasvirlab berishdi.^[27] Shu bilan birga, ushbu tadqiqot mashg'ulotlar to'plamidagi ma'lumotlarning qisqacha ma'lumotlarining 99-foizli nisbati bilan bog'liq bo'lgan taxmin qilingan mukofotdan tashqari, mukofot modeli uchun optimallashtirish yaxshiroq emas, balki yomon xulosalarni keltirib chiqardi. AI tadqiqotchisi Eliezer Yudkovskiy ushbu optimallash o'lchovini "to'g'ri tekislash muammolariga mos keladigan to'g'ridan-to'g'ri" deb tavsifladi.^[28]

Imkoniyatlarni boshqarish

Imkoniyatlarni boshqarish bo'yicha takliflar sun'iy intellekt tizimlarining dunyoga ta'sir qilish qobiliyatini kamaytirishga, ular xavfini kamaytirishga qaratilgan. Biroq, qobiliyatni boshqarish rejalashtirish qobiliyatida qat'iy ustunlikka ega bo'lgan super razvedkaga qarshi cheklangan samaradorlikka ega bo'lar edi, chunki o'ta razvedka o'z niyatini yashirishi va nazoratdan qochish uchun voqealarni boshqarishi mumkin edi. Shuning uchun, Bostrom va boshqalar qobiliyatni boshqarish usullarini faqat motivatsion nazorat usullarini to'ldirish uchun favqulodda yordam sifatida tavsiya qiladilar.^[1]

Kill tugmachasi

Odamlarni o'ldirish yoki boshqa yo'l bilan o'chirib qo'yish mumkin bo'lganidek, kompyuterlarni ham o'chirib qo'yish mumkin. Qiyinchiliklardan biri shundaki, agar o'chirib qo'yish uning hozirgi maqsadlariga erishishiga to'sqinlik qilsa, o'ta razvedka uni o'chirib qo'yishga harakat qilishi mumkin. Odamlar o'zlarini tajovuzkorlardan himoya qilish yoki himoya qilish uchun tizimlarga ega bo'lganidek, bunday o'ta razvedka o'zini o'chirib qo'ymaslik uchun strategik rejalashtirish bilan shug'ullanishga undaydi. Bunga quyidagilar kirishi mumkin:^[1]

O'zining zaxira nusxalarini o'rnatish va ishga tushirish uchun boshqa tizimlarni buzish yoki o'ldirish kalitlari bo'lmagan boshqa ittifoqdosh super aqlli agentlarni yaratish.
Kompyuterni o'chirmoqchi bo'lganlarni oldindan o'chirib qo'yish.
Dasturchilarini o'chirib qo'yish istagi haqida gapirish uchun qandaydir aqlli hiyla-nayrang yoki g'ayritabiiy ishontirish qobiliyatlaridan foydalanish.

Yordamchi dasturlarni muvozanatlashtiruvchi va xavfsiz ravishda to'xtatilishi mumkin bo'lgan vositalar

Kill-switch muammosini qisman hal qilish uchun "kommunal xizmatlarni muvozanatlashtirish" kiradi: Ba'zi bir foydali vositalar, ba'zi bir muhim ogohlantirishlar bilan, o'zlarini to'xtatish yoki o'chirish natijasida yuzaga kelgan har qanday yo'qolgan yordam dasturining o'rnini qoplash uchun dasturlashtirilishi mumkin. oxir-oqibat ular to'xtatilgan yoki yo'qligiga befarq bo'ling. Ogohlantirishlar, xuddi shunga o'xshash jiddiy hal qilinmagan muammoni o'z ichiga oladi daliliy qarorlar nazariyasi, agent "yangiliklarni boshqarish" ning katastrofik siyosatiga amal qilishi mumkin.^[29] Shu bilan bir qatorda, 2016 yilda olimlar Loran Orso va Styuart Armstrong ishonchli tarzda uzilib qoluvchi agentlar (SIA) deb nomlangan keng agentlar sinfi oxir-oqibat ularning o'ldirish tugmachasi bosiladimi yoki yo'qligiga befarq bo'lishni o'rganishlari mumkinligini isbotladilar.^[3]^[30]

Ham foydali dasturlarni muvozanatlashtirish yondashuvi, ham 2016 yildagi SIA yondashuvi cheklovga ega, agar yondashuv muvaffaqiyatli bo'lsa va o'ta razvedka o'ldirish tugmachasi bosiladimi yoki yo'qligiga mutlaqo befarq bo'lsa, super razvedka ham o'ldirish yoki yo'qligi haqida biron bir tarzda g'amxo'rlik qilishni istamaydi. tugma funktsional bo'lib qoladi va uni o'z faoliyati davomida tasodifan va aybsiz ravishda o'chirib qo'yishi mumkin (masalan, keraksiz komponentni olib tashlash va qayta ishlash uchun). Shunga o'xshab, agar super razvedka aybsiz ravishda super aqlli sub-agentlarni yaratsa va tarqatadigan bo'lsa, sub-agentlarga odam tomonidan boshqariladigan o'ldirish kalitlarini o'rnatish uchun hech qanday sabab bo'lmaydi. Kengroq ma'noda, zaif yoki o'ta aqlli bo'lsin, taklif qilingan me'morchiliklar ma'lum ma'noda "o'ldirish tugmachasini hech qachon bosib bo'lmaydiganga o'xshaydi" va shuning uchun oqilona o'chirishni tashkil qilish uchun har qanday favqulodda rejalarni bajara olmaydi. Bu zaif AI uchun ham faraziy jihatdan amaliy muammo tug'dirishi mumkin; sukut bo'yicha, xavfsiz ravishda uzilishi mumkin bo'lgan AI, ma'lum bir vaqtda rejalashtirilgan parvarishlash uchun o'chirilishini tushunishda qiyinchiliklarga duch kelishi mumkin va o'chirish paytida vazifa o'rtasida qolib ketmasligi uchun shunga mos ravishda rejalashtirish kerak. Qaysi arxitektura turlarining SIA-ga mos kelishi yoki bajarilishi mumkinligi, shuningdek, har bir yondashuvda qanday qarshi intuitiv kutilmagan kamchiliklar mavjudligi kengligi hozirda izlanmoqda.^[29]^[30]

AI qutisi

AI qutisi - bu sun'iy intellekt juda cheklangan kirish va chiqish kanallari bo'lgan izolyatsiya qilingan kompyuter tizimida ishlaydigan qobiliyatni boshqarish bo'yicha tavsiya etilgan usul. Masalan, an oracle jismonan Internet va boshqa kompyuter tizimlaridan ajratilgan sun'iy intellekt qutisida amalga oshirilishi mumkin, faqat bitta kirish va chiqish kanali oddiy matn terminali. Sun'iy intellekt tizimini muhrlangan "quti" da ishlashning savdo-sotiqlaridan biri shundaki, uning cheklangan qobiliyati uning foydasini hamda xavfini kamaytirishi mumkin. Bundan tashqari, muhrlangan zukko razvedka kompyuterini boshqarish qiyin bo'lishi mumkin, agar o'ta razvedka g'ayritabiiy ishontirish qobiliyatiga ega bo'lsa yoki g'alaba qozongan strategiyani topish va uni ishlab chiqishda foydalanishi mumkin bo'lgan g'ayritabiiy strategik rejalashtirish qobiliyatiga ega bo'lsa, masalan, hiyla-nayrang bilan harakat qilish. uning dasturchilari o'ta razvedkaning xavfsizligiga ishonishadi (ehtimol yolg'on), yoki aqlni chiqarish foydalari xavfdan ustundir.^[31]

Oracle

Oracle - bu savollarga javob berish uchun yaratilgan va dunyoni cheklangan muhitdan tashqarida o'zgartirishni o'z ichiga olgan har qanday maqsad yoki subgoallarga erishishning oldini olgan faraziy AI.^[32]^[33] Muvaffaqiyatli boshqariladigan oracle muvaffaqiyatli boshqariladigan umumiy maqsadli super razvedkaga qaraganda darhol kamroq foyda keltirishi mumkin edi, ammo orakl hali ham trillionlab dollar qiymatga ega bo'lishi mumkin.^[17]^:163 Uning kitobida Inson mos keladi, AI tadqiqotchisi Styuart J. Rassel super-razvedka atigi o'n yil qolgani ma'lum bo'lgan senariyga uning javobi bo'lardi.^[17]^:162–163 Uning fikri shundan iboratki, oracle umumiy maqsadli super aqlga qaraganda sodda bo'lganligi sababli, bunday cheklovlar ostida muvaffaqiyatli boshqarilish ehtimoli yuqori bo'ladi.

Dunyoga ta'siri cheklanganligi sababli, aql-idrok intellektining kashfiyotchisi sifatida oracle qurish oqilona bo'lishi mumkin. Oracle odamlarga kuchli sun'iy intellektni qanday qilib muvaffaqiyatli qurish kerakligini aytib berishi mumkin va ehtimol loyihaning muvaffaqiyati uchun zarur bo'lgan qiyin axloqiy va falsafiy muammolarga javob beradi. Biroq, oracle umumiy maqsadli super aql bilan bog'liq bo'lgan maqsadlarni aniqlashning ko'plab muammolarini baham ko'rishi mumkin. Oracle ko'proq hisoblangan resurslarga ega bo'lishi va qanday savollar berilishini nazorat qilishi uchun nazorat ostida bo'lgan muhitdan qochishga undaydi.^[17]^:162 Oracle haqiqat bo'lmasligi mumkin, ehtimol yashirin kun tartibini targ'ib qilish uchun yolg'on gapirishi mumkin. Buni yumshatish uchun Bostrom bir oz farq qiladigan bir nechta oracle qurishni va ularning javoblarini taqqoslab, umumiy fikrga kelishni taklif qiladi.^[34]

AGI enaga

AGI Nanny - bu birinchi marta Ben Goertzel tomonidan 2012 yilda xavfli yaratilishining oldini olishga qaratilgan strategiya zukkolik shuningdek, o'ta razvedka xavfsiz yaratilguncha inson farovonligiga tahdid soluvchi boshqa tahdidlarni bartaraf etish.^[35]^[36] U insoniyatni kuzatib borish va uni xavf-xatarlardan himoya qilish maqsadida katta kuzatuv tarmog'iga ulangan odamdan aqlli, ammo aqlli bo'lmagan AGI tizimini yaratishni o'z ichiga oladi. Turchin, Denkenberger va Green, AGI Nanny-ni ishlab chiqishda to'rt bosqichli bosqichma-bosqich yondashishni taklif qilmoqdalar, bu samarali va amaliy bo'lishi kerak bo'lgan xalqaro yoki hatto global korxona bo'lishi kerak. CERN va bu jiddiy qarshilikka duch kelishi mumkin, chunki bu kuchli talab qiladi dunyo hukumati.^[36] Sotala va Yampolskiy maqsadlarni aniqlash muammosi AGI enaga uchun umuman AGIga qaraganda osonroq bo'lmasligini ta'kidlaydilar va "AGI enaga va'da berganga o'xshaydi, ammo buni amalga oshirish mumkinmi yoki yo'qmi aniq emas" degan xulosaga kelishdi.^[16]

AGI ijrosi

AGI majburiyligi - bu kuchli AGI tizimlarini boshqa AGI tizimlari bilan boshqarishning taklif qilingan usuli. Bu zanjirning boshqa uchida odamlar bo'lgan, tobora kam quvvatli AI tizimlari zanjiri sifatida amalga oshirilishi mumkin. Har bir tizim uning ustidagi tizimni aql-idrok bilan boshqaradi, shu bilan birga uning ostidagi tizim yoki insoniyat tomonidan boshqariladi. Biroq, Sotala va Yampolskiy "tobora kattaroq sig'imga ega bo'lgan bir necha darajadagi AI tizimlarini zanjirga qo'yish xavfsiz AI qurish muammosini ko'p tizimli va ehtimol qiyinroq bo'lgan bir xil versiyaning o'rnini bosayotganga o'xshaydi" deb ogohlantirishdi.^[16] Boshqa takliflar taxminan teng imkoniyatli AGI tizimlari guruhiga qaratilgan bo'lib, ular "individual AGIlarning" relslardan chiqib ketishidan "himoyalanishga yordam beradi, ammo bu aksariyat AGIlarning dasturlari noto'g'ri va xavfsiz bo'lmagan holatlarga olib keladigan stsenariyda yordam bermaydi xatti-harakatlar. "^[16]

Shuningdek qarang

Adabiyotlar

^ ^a ^b ^v ^d ^e ^f ^g ^h ^men ^j Bostrom, Nik (2014). Superintelligence: yo'llar, xatarlar, strategiyalar (Birinchi nashr). ISBN 978-0199678112.
^ Yampolskiy, Rim (2012). "Singularity sun'iy intellektni cheklash muammosini qochqinlardan himoya qilish". Ongni o'rganish jurnali. 19 (1–2): 194–214.
^ ^a ^b ^v ^d ^e "Google AI uchun o'ldirish tugmachasini ishlab chiqmoqda". BBC yangiliklari. 8 iyun 2016 yil. Olingan 12 iyun 2016.
^ "Stiven Xoking:" Transsendensiya sun'iy intellektning oqibatlarini ko'rib chiqadi - ammo biz sun'iy intellektga etarlicha jiddiy yondoshamizmi?'". Mustaqil (Buyuk Britaniya). Olingan 14 iyun 2016.
^ "Stiven Xoking sun'iy intellekt insoniyatni tugatishi mumkinligini ogohlantiradi. BBC. 2014 yil 2-dekabr. Olingan 14 iyun 2016.
^ "Sun'iy aqlni kutish". Tabiat. 532 (7600): 413. 26 aprel 2016 yil. Bibcode:2016 yil natur.532Q.413.. doi:10.1038 / 532413a. PMID 27121801.
^ Rassel, Styuart; Norvig, Piter (2009). "26.3: sun'iy intellektni rivojlantirish axloqi va xatarlari". Sun'iy aql: zamonaviy yondashuv. Prentice Hall. ISBN 978-0-13-604259-4.
^ Dietterich, Tomas; Horvits, Erik (2015). "AI haqida tashvishlanishning kuchayishi: mulohazalar va yo'nalishlar" (PDF). ACM aloqalari. 58 (10): 38–40. doi:10.1145/2770869. Olingan 14 iyun 2016.
^ Rassel, Styuart (2014). "Miflar va moonshine haqida". Yon. Olingan 14 iyun 2016.
^ ^a ^b "'Katta qizil tugmani bosing ': Kompyuter mutaxassislari robotlar buzg'unchilikka yo'l qo'ymaslik uchun o'ldirish tugmachasini xohlashadi ". Vashington Post. Olingan 12 iyun 2016.
^ "DeepMind Elon Maskning A.I. Apokalipsisiga to'sqinlik qiladigan oddiy sinovlarga ega". Bloomberg.com. 2017 yil 11-dekabr. Olingan 8 yanvar 2018.
^ "Alfavitning DeepMind kompaniyasi sun'iy intellekt erkinlikni buzishi va barchamizni o'ldirishi mumkinligini aniqlash uchun o'yinlardan foydalanmoqda". Baxt. Olingan 8 yanvar 2018.
^ "Oddiy muhitda AI xavfsizligi muammolarini aniqlash | DeepMind". DeepMind. Olingan 8 yanvar 2018.
^ Fallenshteyn, Benja; Soares, Neyt (2014). "O'z-o'zini takomillashtirishda o'z-o'ziga murojaat qilish muammolari, o'rnatilgan aql-idrok". Sun'iy umumiy aql. Kompyuter fanidan ma'ruza matnlari. 8598. 21-32 betlar. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.
^ Yudkovskiy, Eliezer (2011). "Do'stona sun'iy intellektdagi murakkab qiymat tizimlari". Sun'iy umumiy aql. Kompyuter fanidan ma'ruza matnlari. 6830. 388-393 betlar. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.
^ ^a ^b ^v ^d Sotala, Kaj; Yampolskiy, Rim (2014 yil 19-dekabr). "Favqulodda AGI xavfiga javoblar: so'rovnoma". Physica Scripta. 90 (1): 018001. Bibcode:2015 yil ... PhyS ... 90a8001S. doi:10.1088/0031-8949/90/1/018001.
^ ^a ^b ^v ^d ^e ^f ^g Rassel, Styuart (2019 yil 8-oktabr). Insonga mos keladigan: sun'iy intellekt va boshqarish muammosi. Amerika Qo'shma Shtatlari: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
^ Xadfild-Menell, Dilan; Dragan, Anka; Abbeel, Pieter; Rassel, Styuart (2016 yil 12-noyabr). "Hamkorlikda teskari mustahkamlashni o'rganish". arXiv:1606.03137 [cs.AI ].
^ AIning istalmagan xatti-harakatlaridan saqlanish. Bill Xibbard. 2012 yil. Sun'iy umumiy intellekt bo'yicha beshinchi konferentsiya materiallari, nashr. Xoshcha Bax, Ben Gertzel va Metyu Ikl. Ushbu maqola Machine Intelligence Research Institute tomonidan 2012 yilgi Turing mukofotining eng yaxshi AGI xavfsizligi uchun mukofotiga sazovor bo'ldi.
^ Hibbard, Bill (2014): "Axloqiy sun'iy aql"
^ "Insonga mos" va "AIning istalmagan xatti-harakatlaridan saqlanish"
^ Irving, Jefri; Christiano, Pol; Amodei, Dario; OpenAI (22.10.2018). "Debat orqali AI xavfsizligi". arXiv:1805.00899 [stat.ML ].
^ Perri, Lukas (6-mart, 2019-yil). "AI Alignment Podcast: Geoffrey Irving bilan munozara orqali AI Alignment". Olingan 7 aprel, 2020.
^ Leyk, Jan; Kreuger, Devid; Everitt, Tom; Martic, Miljan; Mayni, Vishal; Legg, Sheyn (2018 yil 19-noyabr). "Mukofotni modellashtirish orqali agentni miqyosli muvofiqlashtirish: tadqiqot yo'nalishi". arXiv:1811.07871.
^ Everitt, Tom; Xutter, Markus (2019 yil 15-avgust). "Kuchaytirishni o'rganishda buzilish muammolari va echimlarini mukofotlash". arXiv:1908.04734v2.
^ ^a ^b Christiano, Pol; Leyk, Jan; Jigarrang, Tom; Martic, Miljan; Legg, Sheyn; Amodei, Dario (2017 yil 13-iyul). "Inson afzalliklaridan chuqur kuchaytirishni o'rganish". arXiv:1706.03741.
^ Stiennon, Nisan; Zigler, Doniyor; Lou, Rayan; Vu, Jefri; Voss, "Chelsi"; Christiano, Pol; Ouyang, Long (4 sentyabr, 2020). "Insonlarning mulohazalari bilan xulosa chiqarishni o'rganish".
^ Yudkovskiy, Eliezer [@ESYudkowsky] (4 sentyabr, 2020 yil). "Haqiqiy moslashuv muammolariga to'g'ridan-to'g'ri to'g'ridan-to'g'ri to'g'ri keladigan juda kam uchraydigan tadqiqotlar! Ular insonning afzalliklari bo'yicha mukofotlash funktsiyasini o'rgatishdi va natijada natijalar yomonlashguncha siz o'qitilgan funktsiyaga nisbatan qanchalik optimallashtirishingiz mumkinligini o'lchashdi" (Tweet) - orqali Twitter.
^ ^a ^b Soares, Neyt va boshqalar. "Tuzatish." Sun'iy intellekt bo'yicha yigirma to'qqizinchi AAAI konferentsiyasidagi seminarlar. 2015 yil.
^ ^a ^b Orso, Loran va Styuart Armstrong. "Xavfsiz ravishda to'xtatib turadigan agentlar". Mashina razvedkasi tadqiqot instituti, 2016 yil iyun.
^ Chalmers, Devid (2010). "Yakkalik: falsafiy tahlil". Ongni o'rganish jurnali. 17 (9–10): 7–65.
^ Bostrom, Nik (2014). "10-bob: Oracle, jinlar, suverenlar, vositalar (145-bet)". Superintelligence: yo'llar, xatarlar, strategiyalar. Oksford: Oksford universiteti matbuoti. ISBN 9780199678112. Oracle - bu savollarga javob berish tizimi. Tabiiy tilda savollarni qabul qilishi va javoblarini matn sifatida taqdim etishi mumkin. Faqatgina "ha" yoki "yo'q" savollarni qabul qiladigan oracle o'zining eng yaxshi taxminlarini bitta bit bilan yoki ehtimol uning ishonch darajasini ifodalash uchun bir nechta qo'shimcha bitlar bilan chiqarishi mumkin. Ochiq savollarni qabul qiladigan ma'ruzachiga ma'lumotlarning aniqligi yoki maqsadga muvofiqligi bo'yicha aniq javoblarni saralash uchun bir nechta metrikalar kerak bo'ladi. Ikkala holatda ham tabiiy tilga oid savollarga javob berish uchun to'liq domen qobiliyatiga ega bo'lgan oracle yaratish - bu sun'iy intellekt bilan to'la muammo. Agar buni amalga oshirish mumkin bo'lsa, ehtimol inson niyatlarini va inson so'zlarini tushunish uchun munosib qobiliyatga ega bo'lgan AIni yaratish mumkin.
^ Armstrong, Styuart; Sandberg, Anders; Bostrom, Nik (2012). "Qutida o'ylash: Oracle AI-ni boshqarish va undan foydalanish". Aql va mashinalar. 22 (4): 299–324. doi:10.1007 / s11023-012-9282-2.
^ Bostrom, Nik (2014). "10-bob: Oracle, jinlar, suverenlar, asboblar (147 bet)". Superintelligence: yo'llar, xatarlar, strategiyalar. Oksford: Oksford universiteti matbuoti. ISBN 9780199678112. Masalan, orkestr savollarga maksimal darajada haqiqatda emas, balki bizni o'zining yashirin kun tartibini targ'ib qilishda hiyla-nayrang ishlatadigan tarzda javob berish xavfini ko'rib chiqing. Ushbu tahdidni biroz yumshatish usullaridan biri, har biri biroz boshqacha kod va bir oz boshqacha ma'lumot bazasiga ega bo'lgan bir nechta oracle yaratish bo'lishi mumkin. Keyinchalik oddiy mexanizm turli xil so'zlar bilan berilgan javoblarni taqqoslashi va faqatgina barcha javoblar kelishilgan taqdirda ularni insoniy ko'rish uchun taqdim etishi mumkin edi.
^ Gertzel, Ben (2012). "Insoniyat o'ziga xoslikni yaxshiroq tushunmaguncha kechiktirish uchun global sun'iy intellektli enani qurishi kerakmi?". Ongni o'rganish jurnali. 19: 96–111. CiteSeerX 10.1.1.352.3966.
^ ^a ^b Turchin, Aleksey; Denkenberger, Devid; Yashil, Brayan (2019-02-20). "AI xavfsizligi muammosi bo'yicha global echimlar va mahalliy echimlar". Katta ma'lumotlar va kognitiv hisoblash. 3 (1): 16. doi:10.3390 / bdcc3010016. ISSN 2504-2289.

[superintelligence-1] v ^d ^e ^f ^g ^h ^men ^j Bostrom, Nik (2014). Superintelligence: yo'llar, xatarlar, strategiyalar (Birinchi nashr). ISBN 978-0199678112.

[2] Yampolskiy, Rim (2012). "Singularity sun'iy intellektni cheklash muammosini qochqinlardan himoya qilish". Ongni o'rganish jurnali. 19 (1–2): 194–214.

[bbc-google-3] v ^d ^e "Google AI uchun o'ldirish tugmachasini ishlab chiqmoqda". BBC yangiliklari. 8 iyun 2016 yil. Olingan 12 iyun 2016.

[hawking_editorial-4] "Stiven Xoking:" Transsendensiya sun'iy intellektning oqibatlarini ko'rib chiqadi - ammo biz sun'iy intellektga etarlicha jiddiy yondoshamizmi?'". Mustaqil (Buyuk Britaniya). Olingan 14 iyun 2016.

[5] "Stiven Xoking sun'iy intellekt insoniyatni tugatishi mumkinligini ogohlantiradi. BBC. 2014 yil 2-dekabr. Olingan 14 iyun 2016.

[6] "Sun'iy aqlni kutish". Tabiat. 532 (7600): 413. 26 aprel 2016 yil. Bibcode:2016 yil natur.532Q.413.. doi:10.1038 / 532413a. PMID 27121801.

[7] Rassel, Styuart; Norvig, Piter (2009). "26.3: sun'iy intellektni rivojlantirish axloqi va xatarlari". Sun'iy aql: zamonaviy yondashuv. Prentice Hall. ISBN 978-0-13-604259-4.

[acm-8] Dietterich, Tomas; Horvits, Erik (2015). "AI haqida tashvishlanishning kuchayishi: mulohazalar va yo'nalishlar" (PDF). ACM aloqalari. 58 (10): 38–40. doi:10.1145/2770869. Olingan 14 iyun 2016.

[9] Rassel, Styuart (2014). "Miflar va moonshine haqida". Yon. Olingan 14 iyun 2016.

[wp-computer-10] "'Katta qizil tugmani bosing ': Kompyuter mutaxassislari robotlar buzg'unchilikka yo'l qo'ymaslik uchun o'ldirish tugmachasini xohlashadi ". Vashington Post. Olingan 12 iyun 2016.

[11] "DeepMind Elon Maskning A.I. Apokalipsisiga to'sqinlik qiladigan oddiy sinovlarga ega". Bloomberg.com. 2017 yil 11-dekabr. Olingan 8 yanvar 2018.

[12] "Alfavitning DeepMind kompaniyasi sun'iy intellekt erkinlikni buzishi va barchamizni o'ldirishi mumkinligini aniqlash uchun o'yinlardan foydalanmoqda". Baxt. Olingan 8 yanvar 2018.

[13] "Oddiy muhitda AI xavfsizligi muammolarini aniqlash | DeepMind". DeepMind. Olingan 8 yanvar 2018.

[14] Fallenshteyn, Benja; Soares, Neyt (2014). "O'z-o'zini takomillashtirishda o'z-o'ziga murojaat qilish muammolari, o'rnatilgan aql-idrok". Sun'iy umumiy aql. Kompyuter fanidan ma'ruza matnlari. 8598. 21-32 betlar. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.

[15] Yudkovskiy, Eliezer (2011). "Do'stona sun'iy intellektdagi murakkab qiymat tizimlari". Sun'iy umumiy aql. Kompyuter fanidan ma'ruza matnlari. 6830. 388-393 betlar. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.

[AGIResponses-16] v ^d Sotala, Kaj; Yampolskiy, Rim (2014 yil 19-dekabr). "Favqulodda AGI xavfiga javoblar: so'rovnoma". Physica Scripta. 90 (1): 018001. Bibcode:2015 yil ... PhyS ... 90a8001S. doi:10.1088/0031-8949/90/1/018001.

[HC-17] v ^d ^e ^f ^g Rassel, Styuart (2019 yil 8-oktabr). Insonga mos keladigan: sun'iy intellekt va boshqarish muammosi. Amerika Qo'shma Shtatlari: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.

[CIRL-18] Xadfild-Menell, Dilan; Dragan, Anka; Abbeel, Pieter; Rassel, Styuart (2016 yil 12-noyabr). "Hamkorlikda teskari mustahkamlashni o'rganish". arXiv:1606.03137 [cs.AI ].

[AGI-12a-19] AIning istalmagan xatti-harakatlaridan saqlanish. Bill Xibbard. 2012 yil. Sun'iy umumiy intellekt bo'yicha beshinchi konferentsiya materiallari, nashr. Xoshcha Bax, Ben Gertzel va Metyu Ikl. Ushbu maqola Machine Intelligence Research Institute tomonidan 2012 yilgi Turing mukofotining eng yaxshi AGI xavfsizligi uchun mukofotiga sazovor bo'ldi.

[hibbard_2014-20] Hibbard, Bill (2014): "Axloqiy sun'iy aql"

[HCandAGI12-21] "Insonga mos" va "AIning istalmagan xatti-harakatlaridan saqlanish"

[DebatePaper-22] Irving, Jefri; Christiano, Pol; Amodei, Dario; OpenAI (22.10.2018). "Debat orqali AI xavfsizligi". arXiv:1805.00899 [stat.ML ].

[IrvingInterview-23] Perri, Lukas (6-mart, 2019-yil). "AI Alignment Podcast: Geoffrey Irving bilan munozara orqali AI Alignment". Olingan 7 aprel, 2020.

[Leike_et_al_2018-24] Leyk, Jan; Kreuger, Devid; Everitt, Tom; Martic, Miljan; Mayni, Vishal; Legg, Sheyn (2018 yil 19-noyabr). "Mukofotni modellashtirish orqali agentni miqyosli muvofiqlashtirish: tadqiqot yo'nalishi". arXiv:1811.07871.

[Everitt_Hutter_2019-25] Everitt, Tom; Xutter, Markus (2019 yil 15-avgust). "Kuchaytirishni o'rganishda buzilish muammolari va echimlarini mukofotlash". arXiv:1908.04734v2.

[Christiano_et_al_2017-26] Christiano, Pol; Leyk, Jan; Jigarrang, Tom; Martic, Miljan; Legg, Sheyn; Amodei, Dario (2017 yil 13-iyul). "Inson afzalliklaridan chuqur kuchaytirishni o'rganish". arXiv:1706.03741.

[OpenAI_2020-27] Stiennon, Nisan; Zigler, Doniyor; Lou, Rayan; Vu, Jefri; Voss, "Chelsi"; Christiano, Pol; Ouyang, Long (4 sentyabr, 2020). "Insonlarning mulohazalari bilan xulosa chiqarishni o'rganish".

[Yudkowsky_2020-28] Yudkovskiy, Eliezer [@ESYudkowsky] (4 sentyabr, 2020 yil). "Haqiqiy moslashuv muammolariga to'g'ridan-to'g'ri to'g'ridan-to'g'ri to'g'ri keladigan juda kam uchraydigan tadqiqotlar! Ular insonning afzalliklari bo'yicha mukofotlash funktsiyasini o'rgatishdi va natijada natijalar yomonlashguncha siz o'qitilgan funktsiyaga nisbatan qanchalik optimallashtirishingiz mumkinligini o'lchashdi" (Tweet) - orqali Twitter.

[corrigibility-29] Soares, Neyt va boshqalar. "Tuzatish." Sun'iy intellekt bo'yicha yigirma to'qqizinchi AAAI konferentsiyasidagi seminarlar. 2015 yil.

[sia-30] Orso, Loran va Styuart Armstrong. "Xavfsiz ravishda to'xtatib turadigan agentlar". Mashina razvedkasi tadqiqot instituti, 2016 yil iyun.

[31] Chalmers, Devid (2010). "Yakkalik: falsafiy tahlil". Ongni o'rganish jurnali. 17 (9–10): 7–65.

[bostrom_chapter_10_page_145-32] Bostrom, Nik (2014). "10-bob: Oracle, jinlar, suverenlar, vositalar (145-bet)". Superintelligence: yo'llar, xatarlar, strategiyalar. Oksford: Oksford universiteti matbuoti. ISBN 9780199678112. Oracle - bu savollarga javob berish tizimi. Tabiiy tilda savollarni qabul qilishi va javoblarini matn sifatida taqdim etishi mumkin. Faqatgina "ha" yoki "yo'q" savollarni qabul qiladigan oracle o'zining eng yaxshi taxminlarini bitta bit bilan yoki ehtimol uning ishonch darajasini ifodalash uchun bir nechta qo'shimcha bitlar bilan chiqarishi mumkin. Ochiq savollarni qabul qiladigan ma'ruzachiga ma'lumotlarning aniqligi yoki maqsadga muvofiqligi bo'yicha aniq javoblarni saralash uchun bir nechta metrikalar kerak bo'ladi. Ikkala holatda ham tabiiy tilga oid savollarga javob berish uchun to'liq domen qobiliyatiga ega bo'lgan oracle yaratish - bu sun'iy intellekt bilan to'la muammo. Agar buni amalga oshirish mumkin bo'lsa, ehtimol inson niyatlarini va inson so'zlarini tushunish uchun munosib qobiliyatga ega bo'lgan AIni yaratish mumkin.

[33] Armstrong, Styuart; Sandberg, Anders; Bostrom, Nik (2012). "Qutida o'ylash: Oracle AI-ni boshqarish va undan foydalanish". Aql va mashinalar. 22 (4): 299–324. doi:10.1007 / s11023-012-9282-2.

[bostrom_chapter_10_page_147-34] Bostrom, Nik (2014). "10-bob: Oracle, jinlar, suverenlar, asboblar (147 bet)". Superintelligence: yo'llar, xatarlar, strategiyalar. Oksford: Oksford universiteti matbuoti. ISBN 9780199678112. Masalan, orkestr savollarga maksimal darajada haqiqatda emas, balki bizni o'zining yashirin kun tartibini targ'ib qilishda hiyla-nayrang ishlatadigan tarzda javob berish xavfini ko'rib chiqing. Ushbu tahdidni biroz yumshatish usullaridan biri, har biri biroz boshqacha kod va bir oz boshqacha ma'lumot bazasiga ega bo'lgan bir nechta oracle yaratish bo'lishi mumkin. Keyinchalik oddiy mexanizm turli xil so'zlar bilan berilgan javoblarni taqqoslashi va faqatgina barcha javoblar kelishilgan taqdirda ularni insoniy ko'rish uchun taqdim etishi mumkin edi.

[35] Gertzel, Ben (2012). "Insoniyat o'ziga xoslikni yaxshiroq tushunmaguncha kechiktirish uchun global sun'iy intellektli enani qurishi kerakmi?". Ongni o'rganish jurnali. 19: 96–111. CiteSeerX 10.1.1.352.3966.

[:0-36] Turchin, Aleksey; Denkenberger, Devid; Yashil, Brayan (2019-02-20). "AI xavfsizligi muammosi bo'yicha global echimlar va mahalliy echimlar". Katta ma'lumotlar va kognitiv hisoblash. 3 (1): 16. doi:10.3390 / bdcc3010016. ISSN 2504-2289.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

Mavjud xavf dan sun'iy intellekt
Tushunchalar	O'zgarishni tezlashtirish AI qutisi AIni egallash Boshqarish muammosi Sun'iy umumiy aqldan mavjud bo'lgan xavf Do'stona sun'iy aql Instrumental yaqinlashish Razvedka portlashi Mashina etikasi Super aql Texnologik o'ziga xoslik
Tashkilotlar	Allen intellekt instituti Amaliy ratsionallik markazi Insonga mos keladigan sun'iy intellekt markazi Xavfsizlik va rivojlanayotgan texnologiyalar markazi Ekzistensial xatarlarni o'rganish markazi DeepMind Asosiy savollar instituti Insoniyat institutining kelajagi Hayotning kelajagi instituti Insoniyat + Etika va rivojlanayotgan texnologiyalar instituti Leverhulme Intelligence kelajagi markazi Mashina razvedkasi tadqiqot instituti OpenAI
Odamlar	Nik Bostrom Erik Dreksler Sem Xarris Stiven Xoking Bill Xibbard Bill Joy Elon Musk Stiv Omohundro Xuv narxi Martin Ris Styuart J. Rassel Yaan Tallin Maks Tegmark Frank Uilzek Roman Yampolskiy Endryu Yang Eliezer Yudkovskiy
Boshqalar	Sun'iy intellekt global halokatli xavf sifatida Sun'iy umumiy aqlning ziddiyatlari va xavfi Sun'iy intellekt etikasi Inson mos keladi Sun'iy intellekt bo'yicha ochiq xat Bizning yakuniy ixtiro Jarlik Superintelligence: yo'llar, xatarlar, strategiyalar
Turkum