Aniqlanish koeffitsienti - Coefficient of determination

Oddiy kichkina kvadratchalar ning regressiyasi Okun qonuni. Regressiya chizig'i hech bir nuqtani juda sog'inmagani uchun R2 regressiya nisbatan yuqori.
Bilan taqqoslash Theil-Sen taxminchi (qora) va oddiy chiziqli regressiya (ko'k) bilan ochkolar to'plami uchun chetga chiquvchilar. Ko'p sonli ko'rsatkichlar tufayli regressiya satrlarining ikkalasi ham ma'lumotlarga mos kelmaydi, chunki ular ikkalasi ham juda yuqori emas R2.

Yilda statistika, aniqlash koeffitsienti, belgilangan R2 yoki r2 va "R kvadrat" deb talaffuz qilingan, bu o'zgaruvchiga bog'liq bo'lgan o'zgaruvchida mustaqil o'zgaruvchiga (lar) taxmin qilinadigan ulushning nisbati.

Bu statistik kontekstida ishlatiladi statistik modellar uning asosiy maqsadi ham bashorat qilish kelajakdagi natijalar yoki sinovlar gipotezalar, boshqa tegishli ma'lumotlar asosida. Bu model tomonidan tushuntirilgan natijalarning umumiy o'zgaruvchanligi nisbati asosida kuzatilgan natijalarning model tomonidan qanchalik yaxshi takrorlanishini o'lchaydi.[1][2][3]

Ning bir nechta ta'riflari mavjud R2 bu faqat ba'zan tengdir. Bunday holatlarning bir sinfiga quyidagilar kiradi oddiy chiziqli regressiya qayerda r2 o'rniga ishlatiladi R2. Qachon ushlash kiritilgan, keyin r2 shunchaki namunaning kvadratidir korrelyatsiya koeffitsienti (ya'ni, r) kuzatilgan natijalar va kuzatilgan taxminiy qiymatlar o'rtasida.[4] Agar qo'shimcha bo'lsa regressorlar kiritilgan, R2 ning kvadratidir ko'p korrelyatsiya koeffitsienti. Ikkala holatda ham aniqlash koeffitsienti odatda 0 dan 1 gacha.

Ning hisoblash ta'rifi bo'lgan holatlar mavjud R2 ishlatilgan ta'rifga qarab, salbiy qiymatlarni berishi mumkin. Bu tegishli natijalar bilan taqqoslanadigan bashoratlar ushbu ma'lumotlardan foydalangan holda modelga mos protseduradan kelib chiqmaganida paydo bo'lishi mumkin. Modelga mos keladigan protsedura ishlatilgan bo'lsa ham, R2 hali ham salbiy bo'lishi mumkin, masalan, chiziqli regressiya interaktivni kiritmasdan o'tkazilganda,[5] yoki ma'lumotlarga mos keladigan chiziqli bo'lmagan funktsiyadan foydalanilganda.[6] Salbiy qiymatlar paydo bo'lgan hollarda, ushbu o'rtacha mezonga muvofiq, ma'lumotlar o'rtacha qiymati o'rnatilgan funktsiya qiymatlariga qaraganda yaxshiroq natijalarga mos keladi. Aniqlanish koeffitsientining eng umumiy ta'rifi, deb ham atalganligi sababli Nash-Satkliff modeli samaradorligi koeffitsienti, bu so'nggi yozuv ko'pgina sohalarda afzalroqdir, chunki kvadratga to'g'ri keladigan harf bilan −∞ dan 1 gacha o'zgarishi mumkin bo'lgan moslik ko'rsatkichi (ya'ni salbiy qiymatlarni berishi mumkin) chalkashliklarga olib keladi.

Simulyatsiyaning mosligini baholashda (Yoldindan) va boshqalar (Yobs) qiymatlari, bunga asoslanish o'rinli emas R2 chiziqli regressiya (ya'ni, Yobs= m·Yoldindan + b). The R2 orasidagi har qanday chiziqli korrelyatsiya darajasini miqdoriy aniqlaydi Yobs va Yoldindan, moslikni baholash uchun faqat bitta aniq chiziqli korrelyatsiyani hisobga olish kerak: Yobs = 1·Yoldindan + 0 (ya'ni, 1: 1 qator).[7][8]

Ta'riflar


Chiziqli regressiya (o'ngda) ma'lumotlarga oddiy o'rtacha (chap grafada) bilan solishtirganda qanchalik mos bo'lsa, qiymati shunchalik yaqinlashadi dan 1 gacha. Ko'k kvadratlarning maydonlari chiziqli regressiyaga nisbatan kvadrat qoldiqlarni ifodalaydi. Qizil kvadratlarning maydonlari o'rtacha qiymatga nisbatan kvadratik qoldiqlarni ifodalaydi.

A ma'lumotlar to'plami bor n belgilangan qiymatlar y1,...,yn (umumiy sifatida tanilgan ymen yoki vektor sifatida y = [y1,...,yn]T), ularning har biri o'rnatilgan (yoki modellashtirilgan yoki taxmin qilingan) qiymat bilan bog'liq f1,...,fn (nomi bilan tanilgan fmenyoki ba'zan ŷmen, vektor sifatida f).

Aniqlang qoldiqlar kabi emen = ymenfmen (vektorni shakllantirish e).

Agar kuzatilgan ma'lumotlarning o'rtacha qiymati:

u holda ma'lumotlar to'plamining o'zgaruvchanligini ikkitasi bilan o'lchash mumkin kvadratlarning yig'indisi formulalar:

Aniqlanish koeffitsientining eng umumiy ta'rifi

Eng yaxshi holatda, modellashtirilgan qiymatlar kuzatilgan qiymatlarga to'liq mos keladi, bu esa natijaga olib keladi va . Har doim bashorat qiladigan asosiy model , bo'ladi . Ushbu bazadan yomon prognozlarga ega modellar salbiy bo'ladi .

Tushunarsiz dispersiyaga bog'liqlik

Umumiy shaklda R2 tushunarsiz dispersiya (FVU) fraktsiyasi bilan bog'liqligini ko'rish mumkin, chunki ikkinchi muddat tushunarsiz dispersiyani (model xatolarining dispersiyasi) umumiy dispersiya (ma'lumotlar) bilan taqqoslaydi:

Tushuntirilganidek, dispersiya

Aytaylik R2 = 0.49. Bu shuni anglatadiki, qaram o'zgaruvchining 49% o'zgaruvchanligi hisobga olingan va qolgan 51% o'zgaruvchanlik hali ham hisobga olinmagan. Ba'zi hollarda kvadratlarning umumiy yig'indisi yuqorida belgilangan kvadratlarning yana ikkita yig'indisining yig'indisiga teng,

Agar kvadratlarning regressiya yig'indisi, shuningdek kvadratlarning yig'indisi tushuntirildi, tomonidan berilgan:

keyin

Qarang Umumiy OLS modelida bo'linish Ushbu natija, munosabatlarga tegishli bo'lgan bitta holat uchun. Agar bu munosabat mavjud bo'lsa, yuqoridagi ta'rif R2 ga teng

qayerda n o'zgaruvchilar bo'yicha kuzatuvlar (holatlar) soni.

Ushbu shaklda R2 ning nisbati sifatida ifodalanadi dispersiyani tushuntirdi (modelning prognozlarining farqi, ya'ni SSreg / n) umumiy dispersiyaga (qaram o'zgaruvchining namunaviy dispersiyasi, ya'ni SSto'liq / n).

Kvadratchalar yig'indisining bu qismi, masalan, model qiymatiga ega bo'lganda ƒmen tomonidan olingan chiziqli regressiya. Engilroq etarli shart quyidagicha o'qiydi: Model shaklga ega

qaerda qmen bog'liq yoki bo'lmasligi mumkin bo'lgan o'zboshimchalik qiymatlari men yoki boshqa bepul parametrlar bo'yicha (umumiy tanlov) qmen = xmen bu faqat bitta alohida holat) va koeffitsientni baholash va kvadratlarning qoldiq yig'indisini minimallashtirish yo'li bilan olinadi.

Ushbu shartlar to'plami muhim ahamiyatga ega va u jihozlangan xususiyatlarga bir qator ta'sir ko'rsatadi qoldiqlar va modellashtirilgan qiymatlar. Xususan, ushbu sharoitlarda:

Kvadrat korrelyatsiya koeffitsienti sifatida

Lineer eng kichik kvadratlarda bir nechta regressiya taxminiy ushlab qolish muddati bilan, R2 ning kvadratiga teng Pearson korrelyatsiya koeffitsienti kuzatilganlar orasida va modellashtirilgan (bashorat qilingan) qaram o'zgaruvchining ma'lumotlar qiymatlari.

A kesma atamasi va bitta tushuntiruvchisi bilan chiziqli eng kichik kvadratchalar regressiyasi, bu ham qaram o'zgaruvchining kvadratik Pearson korrelyatsiya koeffitsientiga teng va tushuntirish o'zgaruvchisi

Sifatida aniqlangan ikkita baho o'rtasidagi o'zaro bog'liqlik koeffitsienti bilan adashtirmaslik kerak

bu erda ikkita koeffitsient baholari orasidagi kovaryans, shuningdek ularning standart og'ishlar, dan olinadi kovaryans matritsasi koeffitsient baholarining.

Bashorat qilingan qiymatlar chiziqli eng kichkina kvadratchalar regressiyasidan farq qiladigan modeldan hosil bo'lishi mumkin bo'lgan ko'proq umumiy modellashtirish sharoitida, R2 qiymatini kvadrati sifatida hisoblash mumkin korrelyatsiya koeffitsienti asl nusxa o'rtasida va modellashtirilgan ma'lumotlar qiymatlari. Bunday holda, qiymat to'g'ridan-to'g'ri modellashtirilgan qadriyatlarning qanchalik yaxshi ekanligini emas, balki modellashtirilgan qiymatlardan (shaklning qayta ko'rib chiqilgan tahminchisini yaratish orqali) qanday qilib bashorat qilish mumkinligi o'lchovidir. a + βƒmen).[iqtibos kerak ] Everittga ko'ra (78-bet),[9] ushbu foydalanish, xususan, "aniqlash koeffitsienti" atamasining ta'rifi: ikki (umumiy) o'zgaruvchilar o'rtasidagi o'zaro bog'liqlik kvadrati.

Tafsir

R2 haqida ba'zi ma'lumotlarni beradigan statistik ma'lumotdir fitnaning yaxshisi model. Regressiyada R2 aniqlash koeffitsienti - regressiya bashoratlari haqiqiy ma'lumotlar nuqtalariga qanchalik yaqinlashishini statistik o'lchovi. An R2 1 ning regressiya bashoratlari ma'lumotlarga to'liq mos kelishini bildiradi.

Ning qiymatlari R2 model gorizontal giperplanetdan ko'ra yomonroq ma'lumotga mos kelganda 0 dan 1 oralig'ida bo'lishi mumkin. Bu noto'g'ri model tanlanganda yoki bema'ni cheklovlar xato bilan qo'llanilganda yuz berishi mumkin. Agar Kvalsetning tenglamasi 1 bo'lsa[10] ishlatiladi (bu eng ko'p ishlatiladigan tenglama), R2 noldan kam bo'lishi mumkin. Agar Kvalsetning 2-tenglamasi ishlatilsa, R2 bittadan kattaroq bo'lishi mumkin.

Barcha holatlarda R2 ishlatiladi, predictors oddiy tomonidan hisoblanadi eng kichik kvadratchalar regressiya: ya'ni minimallashtirish yo'li bilan SSres. Ushbu holatda, R2 modeldagi o'zgaruvchilar soni ko'payishi bilan ortadi (R2 bu monoton ko'paymoqda kiritilgan o'zgaruvchilar soni bilan - u hech qachon kamaymaydi). Bu mumkin bo'lgan foydalanishning kamchiliklarini ko'rsatadi R2, bu erda o'zgaruvchilar qo'shilishi mumkin (Oshxonadagi lavabo regressi ) oshirish uchun R2 qiymat. Masalan, agar kimdir avtomobil modelini avtomobilning gaz yurgan yurishi, narxi va dvigatel kuchidan sotishni taxmin qilmoqchi bo'lsa, unda model nomining birinchi harfi yoki loyihalashtirish bo'yicha etakchi muhandisning balandligi kabi ahamiyatsiz omillarni kiritish mumkin. mashina, chunki R2 o'zgaruvchilar qo'shilganda hech qachon kamaymaydi va ehtimol faqatgina tasodif tufayli o'sishni boshdan kechiradi.

Bu ga qarashning muqobil yondashuviga olib keladi sozlangan R2. Ushbu statistikani tushuntirish deyarli bir xil R2 ammo bu statistikani jazolaydi, chunki qo'shimcha o'zgaruvchilar modelga kiritilgan. Oddiy kichkina kvadratchalar o'rnatilgandan boshqa holatlar uchun R2 statistikani yuqoridagi kabi hisoblash mumkin va baribir foydali o'lchov bo'lishi mumkin. Agar mos keladigan bo'lsa eng kichik kvadratchalar yoki umumlashtirilgan eng kichik kvadratchalar, ning muqobil versiyalari R2 statistik asoslarga mos ravishda hisoblanishi mumkin, "xom" esa R2 osonroq talqin qilinadigan bo'lsa, hali ham foydali bo'lishi mumkin. Uchun qiymatlar R2 statistik asosga ega bo'lmagan har qanday bashoratli model uchun hisoblab chiqilishi mumkin.

Ko'p o'zgaruvchan chiziqli modelda

Bilan chiziqli modelni ko'rib chiqing bitta tushuntirish o'zgaruvchisidan ko'proq, shaklning

qaerda, uchun menuchinchi holat, javob o'zgaruvchisi, bor p regressorlar va o'rtacha nolga teng xato muddat. Miqdorlar qiymati noma'lum bo'lgan koeffitsientlardir eng kichik kvadratchalar. Aniqlanish koeffitsienti R2 modelning global muvofiqligi o'lchovidir. Xususan, R2 [0, 1] elementidir va o'zgaruvchanlikning nisbatini ifodalaydi Ymen bu regressorlarning ba'zi bir chiziqli kombinatsiyasiga tegishli bo'lishi mumkin (tushuntirish o'zgaruvchilari ) ichida X.[11]

R2 ko'pincha modeldagi regressorlar tomonidan "izohlangan" javob o'zgarishi nisbati sifatida talqin etiladi. Shunday qilib, R2 = 1 mos model barcha o'zgaruvchanlikni tushuntirib berishini ko'rsatadi , esa R2 = 0 "chiziqli" munosabatlarni bildirmaydi (to'g'ri chiziqli regressiya uchun bu to'g'ri chiziq modeli doimiy chiziq (nishab = 0, kesma =) javob o'zgaruvchisi va regressorlar o'rtasida). Kabi ichki qiymat R2 = 0.7 ni quyidagicha talqin qilish mumkin: "Javob o'zgaruvchisidagi dispersiyaning 70 foizini tushuntiruvchi o'zgaruvchilar bilan izohlash mumkin. Qolgan o'ttiz foizni noma'lum deb hisoblash mumkin, yashirin o'zgaruvchilar yoki o'ziga xos o'zgaruvchanlik. "

Tegishli ogohlantirish R2, ning boshqa statistik tavsiflariga kelsak o'zaro bog'liqlik va assotsiatsiya bu "korrelyatsiya sababni anglatmaydi. "Boshqacha qilib aytadigan bo'lsak, o'zaro bog'liqliklar ba'zida o'zgaruvchilar o'rtasidagi sababiy munosabatlarni aniqlashda qimmatli maslahatlar berishi mumkin bo'lsa-da, ikkita o'zgaruvchi o'rtasidagi nolga teng bo'lmagan korrelyatsiya o'z-o'zidan bitta o'zgaruvchining qiymatini o'zgartirishga olib keladigan dalil emas Masalan, gugurt (yoki zajigalka) olib yurish amaliyoti o'pka saratoni bilan bog'liq, ammo gugurtni olib yurish saratonga olib kelmaydi (standart "sabab" ma'nosida).

Eng kichik kvadratchalar bilan jihozlangan bitta regressor bo'lsa, R2 ning kvadratidir Pearson mahsulot-moment korrelyatsiya koeffitsienti regressor va javob o'zgaruvchisi bilan bog'liq. Umuman olganda, R2 - bu tuzilgan taxmin va javob o'zgaruvchisi o'rtasidagi o'zaro bog'liqlik kvadratidir. Bir nechta regressor bilan R2 deb atash mumkin ko'p aniqlanish koeffitsienti.

Inflyatsiya R2

Yilda eng kichik kvadratchalar odatdagi ma'lumotlar yordamida regressiya, R2 modeldagi regressorlar sonining ko'payishi bilan hech bo'lmaganda zaif o'sib bormoqda. Chunki regressorlar sonining ko'payishi qiymatini oshiradi R2, R2 yolg'iz o'zi mustaqil o'zgaruvchilarning har xil sonli modellarini mazmunli taqqoslash sifatida foydalanish mumkin emas. Ikki model o'rtasidagi mazmunli taqqoslash uchun F-testi da bajarilishi mumkin kvadratlarning qoldiq yig'indisi, F-testlariga o'xshash Grangerning sababi, garchi bu har doim ham mos kelmasa. Eslatib o'tamiz, ba'zi mualliflar buni ta'kidlashadi R2 tomonidan Rq2, qayerda q ustunlar soni X (doimiyni o'z ichiga olgan tushuntirishchilar soni).

Ushbu xususiyatni namoyish qilish uchun avval esda tutingki, eng kichik kvadratlarning chiziqli regressiya maqsadi

qayerda Xmen ish uchun tushuntiruvchi o'zgaruvchilar qiymatlarining qatorli vektori men va b ning tegishli elementlari koeffitsientlarining ustun vektori Xmen.

Maqsadning maqbul qiymati zaifroq kichikroq, chunki ko'proq tushuntiruvchi o'zgaruvchilar qo'shiladi va shuning uchun qo'shimcha ustunlar (ma'lumotlar matritsasi kimning menuchinchi qator Xmen) kamroq cheklangan minimallashtirish maqbul narxga olib keladi, chunki bu cheklangan minimallashtirishga qaraganda kuchsizroq. Oldingi xulosani hisobga olgan holda va buni ta'kidlash faqat bog'liq y, ning kamaymaydigan xususiyati R2 to'g'ridan-to'g'ri yuqoridagi ta'rifdan kelib chiqadi.

Qo'shimcha tushuntirish o'zgaruvchisidan foydalanib intuitiv sabab pastga tushira olmaydi R2 bu: Minimallashtirish maksimallashtirishga teng R2. Qo'shimcha o'zgaruvchini qo'shganda, ma'lumotlar har doim taxmin qilingan nol koeffitsientini berish imkoniyatiga ega, bashorat qilingan qiymatlarni va R2 o'zgarishsiz. Agar optimallashtirish muammosi nolga teng bo'lmagan koeffitsientni berishning yagona usuli - bu bajarilgan bo'lsa R2.

Ogohlantirishlar

R2 quyidagilarni ko'rsatmaydi:

  • mustaqil o'zgaruvchilar o'zgarishga sabab bo'ladi qaram o'zgaruvchi;
  • qoldirilgan-o'zgaruvchan tarafkashlik mavjud;
  • to'g'ri regressiya ishlatilgan;
  • mustaqil o'zgaruvchilarning eng mos to'plami tanlangan;
  • u yerda kollinearlik tushuntirish o'zgaruvchilari haqidagi ma'lumotlarda mavjud;
  • mavjud mustaqil o'zgaruvchilar to'plamining o'zgartirilgan versiyalari yordamida modelni takomillashtirish mumkin;
  • qat'iy xulosa qilish uchun etarli ma'lumot nuqtalari mavjud.

Kengaytmalar

Tuzatilgan R2

Tuzatilganidan foydalanish R2 (bitta umumiy yozuv , "R bar kvadrat" deb talaffuz qilingan; boshqasi ) bu hodisani hisobga olishga urinishdir R2 qo'shimcha tushuntirish o'zgaruvchilari modelga qo'shilganda avtomatik ravishda va soxta ravishda ko'payadi. Tomonidan ishlab chiqarilgan Anri Teyl, bu o'zgartirish R2 soniga moslashtiruvchi tushuntirish modeldagi atamalar () ma'lumotlar punktlari soniga nisbatan ().[12] Sozlangan R2 sifatida belgilanadi

qayerda p bu modeldagi izohlanuvchi o'zgaruvchilarning umumiy soni (doimiy atamani hisobga olmaganda) va n namuna hajmi, shuningdek quyidagicha yozilishi mumkin:

qaerda dft bo'ladi erkinlik darajasi n - qaram o'zgaruvchining populyatsiya dispersiyasi taxminining 1 va dfe erkinlik darajasidir n – p - Populyatsiya xatolarining asosiy dispersiyasi taxminining 1.

Sozlangan R2 salbiy bo'lishi mumkin va uning qiymati har doimgidan kam yoki unga teng bo'ladi R2. Aksincha R2, sozlangan R2 ko'payishi bilan ko'payadi R2 (yangi tushuntirish o'zgaruvchisi kiritilganligi sababli) tasodifan ko'rishni kutganidan ko'p. Agar oldindan muhim ahamiyatga ega bo'lgan ierarxiyaga ega bo'lgan tushuntirish o'zgaruvchilari to'plami regressga birma-bir kiritilgan bo'lsa, R2 har safar hisoblangan, uning darajasi sozlangan R2 maksimal darajaga etadi va undan keyin pasayadi, ortiqcha va keraksiz shartlarsiz eng yaxshi moslashishga ega bo'lgan ideal kombinatsiya bilan regressiya bo'ladi.

Tuzatilgan R2 aholining xolis (yoki unchalik xolis bo'lmagan) taxminchisi sifatida talqin qilinishi mumkin R2kuzatilgan namuna esa R2 aholi qiymatining ijobiy xolis bahosi.[13] Tuzatilgan R2 modelga mos kelishini baholashda (mustaqil o'zgaruvchilar tomonidan hisobga olingan bog'liq o'zgaruvchidagi farq) va alternativ modellarni taqqoslashda xususiyatlarni tanlash namunaviy qurilish bosqichi.[13]

O'rnatilgan asosning printsipi R2 statistikani oddiy narsalarni qayta yozish orqali ko'rish mumkin R2 kabi

qayerda va taxmin qilingan qoldiqlar va qaram o'zgaruvchining namunaviy farqlari bo'lib, ular xatolar va qaram o'zgaruvchilar populyatsiyasi dispersiyalarining xolis baholari sifatida qaralishi mumkin. Ushbu taxminlar statistik jihatdan almashtiriladi xolis versiyalar: va .

Qisman aniqlash koeffitsienti

Qisman aniqlash koeffitsienti qisqartirilgan modelda tushuntirib berilmaydigan, lekin to'liq (er) modelda ko'rsatilgan prediktorlar tomonidan tushuntirilishi mumkin bo'lgan o'zgarishning nisbati sifatida aniqlanishi mumkin.[14][15][16] Ushbu koeffitsient bir yoki bir nechta qo'shimcha predikatorlarning to'liq aniqlangan regressiya modelida foydali bo'lishi yoki yo'qligi to'g'risida tushuncha berish uchun ishlatiladi.

Qisman uchun hisoblash R2 ikkita modelni taxmin qilganidan va ANOVA ular uchun jadvallar. Qisman uchun hisoblash R2 bu

bu odatdagi aniqlash koeffitsientiga o'xshash:

Umumlashtirish va parchalanish R2 [17]

Yuqorida aytib o'tilganidek, Adjused kabi model tanlash evristikasi mezon va F-testi jami yoki yo'qligini tekshirib ko'ring modelga yangi regressor qo'shilishi kerakligini aniqlash uchun etarlicha ko'payadi. Agar modelga allaqachon kiritilgan boshqa regressorlar bilan juda bog'liq bo'lgan regressor qo'shilsa, unda jami yangi regressor dolzarb bo'lsa ham, deyarli ko'paymaydi. Natijada, yuqorida ko'rsatilgan evristika o'zaro bog'liqlik yuqori bo'lganda tegishli regressorlarni e'tiborsiz qoldiradi.

Ning geometrik tasviri .

Shu bilan bir qatorda, ning umumlashtirilgan versiyasini ajratish mumkin farazdan chetga chiqishning dolzarbligini miqdoriy aniqlash.[17] Hoornweg (2018) ko'rsatganidek, bir nechta qisqarishni taxmin qiluvchilar - masalan Bayesning chiziqli regressiyasi, tizma regressiyasi va (moslashuvchan) lasso - ning bu parchalanishidan foydalaning ular asta-sekin parametrlarni cheklanmagan OLS echimlaridan faraz qilingan qiymatlar tomon qisqartirganda. Avval chiziqli regressiya modelini quyidagicha aniqlaylik

Matritsa deb taxmin qilinadi Z-ballari va ustun vektori bilan standartlangan o'rtacha nolga tenglashtiriladi. Ustun vektoriga ruxsat bering faraz qilingan regressiya parametrlariga murojaat qiling va ustun vektoriga yo'l qo'ying taxmin qilingan parametrlarni belgilang. Keyin biz aniqlay olamiz

An 75% degani, ma'lumotlar optimallashtirilgan bo'lsa, namunadagi aniqlik 75% ga yaxshilanadi gipoteza o'rniga echimlardan foydalaniladi qiymatlar. Maxsus holatda nollarning vektori, biz an'anaviyni qo'lga kiritamiz yana.

Shaxsiy ta'sir farazdan chetga chiqish bilan hisoblash mumkin ('R-tashqi'). Bu marta matritsa tomonidan berilgan

qayerda . Ning diagonal elementlari to'liq qo'shish . Agar regressorlar o'zaro bog'liq bo'lmagan bo'lsa va nollarning vektori, keyin esa ning diagonal elementi ga shunchaki mos keladi orasidagi qiymat va . Qachon regressorlar va o'zaro bog'liq, ning pasayishi evaziga o'sishi mumkin . Natijada, ning diagonal elementlari 0 dan kichikroq va alohida holatlarda 1dan kattaroq bo'lishi mumkin. Bunday noaniqliklar bilan kurashish uchun bir nechta qisqarishni taxmin qiluvchilar to'g'ridan-to'g'ri diagonali elementlarning o'rtacha og'irligini olishadi faraz qilingan qiymatdan chetga chiqishning dolzarbligini aniqlash.[17] Ustiga bosing lasso misol uchun.

R2 logistik regressiyada

Bo'lgan holatda logistik regressiya, odatda mos keladi maksimal ehtimollik, bir nechta tanlov mavjud psevdo-R2.

Ulardan biri umumlashtirilgan R2 dastlab Cox & Snell tomonidan taklif qilingan,[18] va Magee tomonidan mustaqil ravishda:[19]

qayerda modelning faqatgina tutib olish ehtimoli, taxmin qilingan modelning ehtimoli (ya'ni, parametrlarning taxminiy to'plami berilgan model) va n namuna hajmi. U osongina qayta yoziladi:

qayerda D. ning test statistikasi ehtimollik koeffitsienti testi.

Nagelkerke[20] quyidagi xususiyatlarga ega ekanligini ta'kidladi:

  1. U ikkalasini ham hisoblash mumkin bo'lganda klassik aniqlash koeffitsientiga mos keladi;
  2. Uning qiymati modelning maksimal ehtimollik bahosi bilan maksimal darajaga ko'tariladi;
  3. Namuna o'lchamidan asimptotik ravishda mustaqil;
  4. Interpretatsiya - bu model bilan izohlangan variatsiyaning nisbati;
  5. Qiymatlar 0 dan 1 gacha, 0 bu model hech qanday o'zgarishni tushuntirmasligini va 1 kuzatilgan o'zgarishni mukammal tushuntirganligini bildiradi;
  6. Unda hech qanday birlik yo'q.

Biroq, logistik model bo'lsa, qaerda 1 dan katta bo'lishi mumkin emas, R2 0 va orasida : Shunday qilib, Nagelkerke miqyosni aniqlash imkoniyatini taklif qildi R2 kabi R2/R2maksimal.[21]

Qoldiqlar normasi bilan taqqoslash

Ba'zan norma qoldiqlari yaroqliligini ko'rsatish uchun ishlatiladi. Ushbu atama ning kvadrat-ildizi sifatida hisoblanadi qoldiqlar kvadratlari yig'indisi:

Ikkalasi ham R2 va qoldiqlar normasi o'zlarining nisbiy afzalliklariga ega. Uchun eng kichik kvadratchalar tahlil R2 0 va 1 orasida o'zgarib turadi, kattaroq raqamlar yaxshiroq mosligini ko'rsatib beradi va 1 mukammal moslikni anglatadi. Qoldiqlarning me'yori 0 dan cheksizgacha o'zgarib turadi, kichikroq raqamlar yaxshi moslikni va nolga mos kelishini bildiradi. Bitta afzalligi va kamchiliklari R2 bo'ladi muddatli amal qiladi normallashtirish qiymati. Agar ymen qiymatlarning barchasi doimiyga ko'paytiriladi, qoldiqlar normasi ham shu doimiyga o'zgaradi lekin R2 bir xil bo'lib qoladi. Asosiy misol sifatida, chiziqli eng kichik kvadratchalar ma'lumotlar to'plamiga mos keladi:

R2 = 0.998, va qoldiq normasi = 0.302. Agar barcha qiymatlari bo'lsa y 1000 ga ko'paytiriladi (masalan, SI prefiksi o'zgartirish), keyin R2 bir xil bo'lib qolmoqda, ammo qoldiq normasi = 302.

Boshqa bitta parametr ko'rsatkichi RMSE qoldiqlari yoki qoldiqlarning standart og'ishi. Yuqorida keltirilgan misol uchun bu 0,135 qiymatiga ega bo'lar edi, chunki u majburiy kesma bilan chiziqli edi.[22]

Tarix

Aniqlanish koeffitsientini yaratish genetikga tegishli Rayt Rayt va birinchi marta 1921 yilda nashr etilgan.[23]

Shuningdek qarang

Izohlar

  1. ^ Chelik, R. G. D .; Torrie, J. H. (1960). Biologiya fanlari uchun maxsus ma'lumotlarga ega bo'lgan statistika printsiplari va protseduralari. McGraw tepaligi.
  2. ^ Glantz, Stanton A.; Slinker, B. K. (1990). Amaliy regressiya va o'zgaruvchanlik tahlili. McGraw-Hill. ISBN  978-0-07-023407-9.
  3. ^ Draper, N. R .; Smit, H. (1998). Amaliy regressiya tahlili. Wiley-Intertersience. ISBN  978-0-471-17082-2.
  4. ^ Devore, Jey L. (2011). Muhandislik va fanlar uchun ehtimollik va statistika (8-nashr). Boston, MA: Cengage Learning. 508-510 betlar. ISBN  978-0-538-73352-6.
  5. ^ Barten, Anton P. (1987). "Doimiy muddatsiz regressiyani aniqlash koeffitsienti". Heijmansda, Risto; Noydker, Xaynts (tahr.) Ekonometriya amaliyoti. Dordrext: Klyuver. 181-189 betlar. ISBN  90-247-3502-5.
  6. ^ Kolin Kemeron, A .; Vindmayer, Frank A.G. (1997). "Ba'zi keng tarqalgan chiziqli bo'lmagan regressiya modellariga mos keladigan R-kvadratik o'lchov o'lchovi". Ekonometriya jurnali. 77 (2): 1790–2. doi:10.1016 / S0304-4076 (96) 01818-0.
  7. ^ Legates, D.R .; Makkeyb, GJ (1999). "Gidrologik va gidroklimatik modellarni tasdiqlashda" yaroqlilik "choralaridan foydalanishni baholash". Suv resurslari. Res. 35 (1): 233–241. doi:10.1029 / 1998WR900018.
  8. ^ Ritter, A .; Muñoz-Carpena, R. (2013). "Gidrologik modellarning samaradorligini baholash: moslikni baholashda sub'ektivlikni kamaytirish uchun statistik ahamiyatga". Gidrologiya jurnali. 480 (1): 33–45. doi:10.1016 / j.jhydrol.2012.12.004.
  9. ^ Everitt, B. S. (2002). Kembrij statistika lug'ati (2-nashr). Kubok. ISBN  978-0-521-81099-9.
  10. ^ Kvalset, Tarald O. (1985). "R2 haqida ogohlantirish". Amerika statistikasi. 39 (4): 279–285. doi:10.2307/2683704. JSTOR  2683704.
  11. ^ Polinom regressiyalari uchun tuzatilgan R2 hisoblash
  12. ^ Theil, Anri (1961). Iqtisodiy prognozlar va siyosat. Gollandiya, Amsterdam: Shimoliy. p. 213.
  13. ^ a b Shieh, Gvoven (2008-04-01). "Ko'p sonli korrelyatsiya koeffitsienti va kvadratik o'zaro bog'liqlik koeffitsientining qisqarishini baholash yaxshilandi". Tashkiliy tadqiqot usullari. 11 (2): 387–407. doi:10.1177/1094428106292901. ISSN  1094-4281. S2CID  55098407.
  14. ^ Richard Anderson-Sprecher "Model taqqoslashlar va R2 ", Amerika statistikasi, 48-jild, 1994 yil 2-son, 113–117-betlar.
  15. ^ (ga umumlashtirildi Maksimal ehtimollik ) N. J. D. Nagelkerke, "Aniqlash koeffitsientining umumiy ta'rifi to'g'risida eslatma ", Biometrika, Jild 78, № 3. (1991 yil sentyabr), 691-692-betlar.
  16. ^ "Qisman aniqlash koeffitsientini amalga oshirish"
  17. ^ a b v Hoornweg, Viktor (2018). "II qism: parametrlarni barqaror saqlash to'g'risida". Ilmiy: Yuborilgan holda. Hoornweg Press. ISBN  978-90-829188-0-9.
  18. ^ Koks, D. D .; Snell, E. J. (1989). Ikkilik ma'lumotlarning tahlili (2-nashr). Chapman va Xoll.
  19. ^ Magee, L. (1990). "R2 Wald va ehtimollik koeffitsienti bo'yicha qo'shma ahamiyatlilik testlariga asoslangan tadbirlar " Amerika statistikasi. 44. 250-3 betlar. doi:10.1080/00031305.1990.10475731.
  20. ^ Nagelkerke, Nico J. D. (1992). Funktsional munosabatlarning maksimal ehtimolligini baholash, Pays-Bas. Statistika bo'yicha ma'ruza yozuvlari. 69. ISBN  978-0-387-97721-8.
  21. ^ Nagelkerke, N. J. D. (1991). "Aniqlash koeffitsientining umumiy ta'rifi to'g'risida eslatma". Biometrika. 78 (3): 691–2. doi:10.1093 / biomet / 78.3.691. JSTOR  2337038.
  22. ^ OriginLab veb-sahifasi, http://www.originlab.com/doc/Origin-Help/LR-Algorithm. Qabul qilingan 2016 yil 9-fevral.
  23. ^ Rayt, Syuell (1921 yil yanvar). "Korrelyatsiya va sabablilik". Qishloq xo'jaligi tadqiqotlari jurnali. 20: 557–585.

Qo'shimcha o'qish