Aniqlanish koeffitsienti - Coefficient of determination

Oddiy kichkina kvadratchalar ning regressiyasi Okun qonuni. Regressiya chizig'i hech bir nuqtani juda sog'inmagani uchun R² regressiya nisbatan yuqori.

Bilan taqqoslash Theil-Sen taxminchi (qora) va oddiy chiziqli regressiya (ko'k) bilan ochkolar to'plami uchun chetga chiquvchilar. Ko'p sonli ko'rsatkichlar tufayli regressiya satrlarining ikkalasi ham ma'lumotlarga mos kelmaydi, chunki ular ikkalasi ham juda yuqori emas R².

Yilda statistika, aniqlash koeffitsienti, belgilangan R² yoki r² va "R kvadrat" deb talaffuz qilingan, bu o'zgaruvchiga bog'liq bo'lgan o'zgaruvchida mustaqil o'zgaruvchiga (lar) taxmin qilinadigan ulushning nisbati.

Bu statistik kontekstida ishlatiladi statistik modellar uning asosiy maqsadi ham bashorat qilish kelajakdagi natijalar yoki sinovlar gipotezalar, boshqa tegishli ma'lumotlar asosida. Bu model tomonidan tushuntirilgan natijalarning umumiy o'zgaruvchanligi nisbati asosida kuzatilgan natijalarning model tomonidan qanchalik yaxshi takrorlanishini o'lchaydi.^[1]^[2]^[3]

Ning bir nechta ta'riflari mavjud R² bu faqat ba'zan tengdir. Bunday holatlarning bir sinfiga quyidagilar kiradi oddiy chiziqli regressiya qayerda r² o'rniga ishlatiladi R². Qachon ushlash kiritilgan, keyin r² shunchaki namunaning kvadratidir korrelyatsiya koeffitsienti (ya'ni, r) kuzatilgan natijalar va kuzatilgan taxminiy qiymatlar o'rtasida.^[4] Agar qo'shimcha bo'lsa regressorlar kiritilgan, R² ning kvadratidir ko'p korrelyatsiya koeffitsienti. Ikkala holatda ham aniqlash koeffitsienti odatda 0 dan 1 gacha.

Ning hisoblash ta'rifi bo'lgan holatlar mavjud R² ishlatilgan ta'rifga qarab, salbiy qiymatlarni berishi mumkin. Bu tegishli natijalar bilan taqqoslanadigan bashoratlar ushbu ma'lumotlardan foydalangan holda modelga mos protseduradan kelib chiqmaganida paydo bo'lishi mumkin. Modelga mos keladigan protsedura ishlatilgan bo'lsa ham, R² hali ham salbiy bo'lishi mumkin, masalan, chiziqli regressiya interaktivni kiritmasdan o'tkazilganda,^[5] yoki ma'lumotlarga mos keladigan chiziqli bo'lmagan funktsiyadan foydalanilganda.^[6] Salbiy qiymatlar paydo bo'lgan hollarda, ushbu o'rtacha mezonga muvofiq, ma'lumotlar o'rtacha qiymati o'rnatilgan funktsiya qiymatlariga qaraganda yaxshiroq natijalarga mos keladi. Aniqlanish koeffitsientining eng umumiy ta'rifi, deb ham atalganligi sababli Nash-Satkliff modeli samaradorligi koeffitsienti, bu so'nggi yozuv ko'pgina sohalarda afzalroqdir, chunki kvadratga to'g'ri keladigan harf bilan −∞ dan 1 gacha o'zgarishi mumkin bo'lgan moslik ko'rsatkichi (ya'ni salbiy qiymatlarni berishi mumkin) chalkashliklarga olib keladi.

Simulyatsiyaning mosligini baholashda (Y_oldindan) va boshqalar (Y_obs) qiymatlari, bunga asoslanish o'rinli emas R² chiziqli regressiya (ya'ni, Y_obs= m·Y_oldindan + b). The R² orasidagi har qanday chiziqli korrelyatsiya darajasini miqdoriy aniqlaydi Y_obs va Y_oldindan, moslikni baholash uchun faqat bitta aniq chiziqli korrelyatsiyani hisobga olish kerak: Y_obs = 1·Y_oldindan + 0 (ya'ni, 1: 1 qator).^[7]^[8]

Ta'riflar

{ displaystyle R ^ {2} = 1 - { frac { color {blue} {SS _ { text {res}}}} { color {red} {SS _ { text {tot}}}}}}}

Chiziqli regressiya (o'ngda) ma'lumotlarga oddiy o'rtacha (chap grafada) bilan solishtirganda qanchalik mos bo'lsa, qiymati shunchalik yaqinlashadi

{ displaystyle R ^ {2}}

dan 1 gacha. Ko'k kvadratlarning maydonlari chiziqli regressiyaga nisbatan kvadrat qoldiqlarni ifodalaydi. Qizil kvadratlarning maydonlari o'rtacha qiymatga nisbatan kvadratik qoldiqlarni ifodalaydi.

A ma'lumotlar to'plami bor n belgilangan qiymatlar y₁,...,y_n (umumiy sifatida tanilgan y_men yoki vektor sifatida y = [y₁,...,y_n]^T), ularning har biri o'rnatilgan (yoki modellashtirilgan yoki taxmin qilingan) qiymat bilan bog'liq f₁,...,f_n (nomi bilan tanilgan f_menyoki ba'zan ŷ_men, vektor sifatida f).

Aniqlang qoldiqlar kabi e_men = y_men − f_men (vektorni shakllantirish e).

Agar ${ displaystyle { bar {y}}}$ kuzatilgan ma'lumotlarning o'rtacha qiymati:

{ displaystyle { bar {y}} = { frac {1} {n}} sum _ {i = 1} ^ {n} y_ {i}}

u holda ma'lumotlar to'plamining o'zgaruvchanligini ikkitasi bilan o'lchash mumkin kvadratlarning yig'indisi formulalar:

The kvadratlarning umumiy yig'indisi (ga mutanosib dispersiya ma'lumotlar):

{ displaystyle SS _ { text {tot}} = sum _ {i} (y_ {i} - { bar {y}}) ^ {2}}

Qoldiqlar kvadratlarining yig'indisi, shuningdek kvadratlarning qoldiq yig'indisi:

{ displaystyle SS _ { text {res}} = sum _ {i} (y_ {i} -f_ {i}) ^ {2} = sum _ {i} e_ {i} ^ {2} , }

Aniqlanish koeffitsientining eng umumiy ta'rifi

{ displaystyle R ^ {2} = 1- {SS _ { rm {res}} over SS _ { rm {tot}}} ,}

Eng yaxshi holatda, modellashtirilgan qiymatlar kuzatilgan qiymatlarga to'liq mos keladi, bu esa natijaga olib keladi ${ displaystyle SS _ { text {res}} = 0}$ va ${ displaystyle R ^ {2} = 1}$ . Har doim bashorat qiladigan asosiy model ${ displaystyle { bar {y}}}$ , bo'ladi ${ displaystyle R ^ {2} = 0}$ . Ushbu bazadan yomon prognozlarga ega modellar salbiy bo'ladi ${ displaystyle R ^ {2}}$ .

Tushunarsiz dispersiyaga bog'liqlik

Umumiy shaklda R² tushunarsiz dispersiya (FVU) fraktsiyasi bilan bog'liqligini ko'rish mumkin, chunki ikkinchi muddat tushunarsiz dispersiyani (model xatolarining dispersiyasi) umumiy dispersiya (ma'lumotlar) bilan taqqoslaydi:

{ displaystyle R ^ {2} = 1 - { text {FVU}}}

Tushuntirilganidek, dispersiya

Aytaylik R² = 0.49. Bu shuni anglatadiki, qaram o'zgaruvchining 49% o'zgaruvchanligi hisobga olingan va qolgan 51% o'zgaruvchanlik hali ham hisobga olinmagan. Ba'zi hollarda kvadratlarning umumiy yig'indisi yuqorida belgilangan kvadratlarning yana ikkita yig'indisining yig'indisiga teng,

Agar kvadratlarning regressiya yig'indisi, shuningdek kvadratlarning yig'indisi tushuntirildi, tomonidan berilgan:

{ displaystyle SS _ { text {reg}} = sum _ {i} (f_ {i} - { bar {y}}) ^ {2}}

keyin

{ displaystyle SS _ { text {res}} + SS _ { text {reg}} = SS _ { text {tot}}}

Qarang Umumiy OLS modelida bo'linish Ushbu natija, munosabatlarga tegishli bo'lgan bitta holat uchun. Agar bu munosabat mavjud bo'lsa, yuqoridagi ta'rif R² ga teng

{ displaystyle R ^ {2} = { frac {SS _ { text {reg}}} {SS _ { text {tot}}}} = { frac {SS _ { text {reg}} / n} { SS _ { text {tot}} / n}}}

qayerda n o'zgaruvchilar bo'yicha kuzatuvlar (holatlar) soni.

Ushbu shaklda R² ning nisbati sifatida ifodalanadi dispersiyani tushuntirdi (modelning prognozlarining farqi, ya'ni SS_reg / n) umumiy dispersiyaga (qaram o'zgaruvchining namunaviy dispersiyasi, ya'ni SS_to'liq / n).

Kvadratchalar yig'indisining bu qismi, masalan, model qiymatiga ega bo'lganda ƒ_men tomonidan olingan chiziqli regressiya. Engilroq etarli shart quyidagicha o'qiydi: Model shaklga ega

{ displaystyle f_ {i} = { widehat { alpha}} + { widehat { beta}} q_ {i} ,}

qaerda q_men bog'liq yoki bo'lmasligi mumkin bo'lgan o'zboshimchalik qiymatlari men yoki boshqa bepul parametrlar bo'yicha (umumiy tanlov) q_men = x_men bu faqat bitta alohida holat) va koeffitsientni baholash ${ displaystyle { widehat { alpha}}}$ va ${ displaystyle { widehat { beta}}}$ kvadratlarning qoldiq yig'indisini minimallashtirish yo'li bilan olinadi.

Ushbu shartlar to'plami muhim ahamiyatga ega va u jihozlangan xususiyatlarga bir qator ta'sir ko'rsatadi qoldiqlar va modellashtirilgan qiymatlar. Xususan, ushbu sharoitlarda:

{ displaystyle { bar {f}} = { bar {y}}. ,}

Kvadrat korrelyatsiya koeffitsienti sifatida

Lineer eng kichik kvadratlarda bir nechta regressiya taxminiy ushlab qolish muddati bilan, R² ning kvadratiga teng Pearson korrelyatsiya koeffitsienti kuzatilganlar orasida ${ displaystyle y}$ va modellashtirilgan (bashorat qilingan) ${ displaystyle f}$ qaram o'zgaruvchining ma'lumotlar qiymatlari.

A kesma atamasi va bitta tushuntiruvchisi bilan chiziqli eng kichik kvadratchalar regressiyasi, bu ham qaram o'zgaruvchining kvadratik Pearson korrelyatsiya koeffitsientiga teng ${ displaystyle y}$ va tushuntirish o'zgaruvchisi ${ displaystyle x.}$

Sifatida aniqlangan ikkita baho o'rtasidagi o'zaro bog'liqlik koeffitsienti bilan adashtirmaslik kerak

{ displaystyle rho _ {{ widehat { alpha}}, { widehat { beta}}} = { operatorname {cov} chap ({ widehat { alpha}}, { widehat { beta) }} right) over sigma _ { broadhat { alfa}} sigma _ { widehat { beta}}},}

bu erda ikkita koeffitsient baholari orasidagi kovaryans, shuningdek ularning standart og'ishlar, dan olinadi kovaryans matritsasi koeffitsient baholarining.

Bashorat qilingan qiymatlar chiziqli eng kichkina kvadratchalar regressiyasidan farq qiladigan modeldan hosil bo'lishi mumkin bo'lgan ko'proq umumiy modellashtirish sharoitida, R² qiymatini kvadrati sifatida hisoblash mumkin korrelyatsiya koeffitsienti asl nusxa o'rtasida ${ displaystyle y}$ va modellashtirilgan ${ displaystyle f}$ ma'lumotlar qiymatlari. Bunday holda, qiymat to'g'ridan-to'g'ri modellashtirilgan qadriyatlarning qanchalik yaxshi ekanligini emas, balki modellashtirilgan qiymatlardan (shaklning qayta ko'rib chiqilgan tahminchisini yaratish orqali) qanday qilib bashorat qilish mumkinligi o'lchovidir. a + βƒ_men).^{[iqtibos kerak ]} Everittga ko'ra (78-bet),^[9] ushbu foydalanish, xususan, "aniqlash koeffitsienti" atamasining ta'rifi: ikki (umumiy) o'zgaruvchilar o'rtasidagi o'zaro bog'liqlik kvadrati.

Tafsir

R² haqida ba'zi ma'lumotlarni beradigan statistik ma'lumotdir fitnaning yaxshisi model. Regressiyada R² aniqlash koeffitsienti - regressiya bashoratlari haqiqiy ma'lumotlar nuqtalariga qanchalik yaqinlashishini statistik o'lchovi. An R² 1 ning regressiya bashoratlari ma'lumotlarga to'liq mos kelishini bildiradi.

Ning qiymatlari R² model gorizontal giperplanetdan ko'ra yomonroq ma'lumotga mos kelganda 0 dan 1 oralig'ida bo'lishi mumkin. Bu noto'g'ri model tanlanganda yoki bema'ni cheklovlar xato bilan qo'llanilganda yuz berishi mumkin. Agar Kvalsetning tenglamasi 1 bo'lsa^[10] ishlatiladi (bu eng ko'p ishlatiladigan tenglama), R² noldan kam bo'lishi mumkin. Agar Kvalsetning 2-tenglamasi ishlatilsa, R² bittadan kattaroq bo'lishi mumkin.

Barcha holatlarda R² ishlatiladi, predictors oddiy tomonidan hisoblanadi eng kichik kvadratchalar regressiya: ya'ni minimallashtirish yo'li bilan SS_res. Ushbu holatda, R² modeldagi o'zgaruvchilar soni ko'payishi bilan ortadi (R² bu monoton ko'paymoqda kiritilgan o'zgaruvchilar soni bilan - u hech qachon kamaymaydi). Bu mumkin bo'lgan foydalanishning kamchiliklarini ko'rsatadi R², bu erda o'zgaruvchilar qo'shilishi mumkin (Oshxonadagi lavabo regressi ) oshirish uchun R² qiymat. Masalan, agar kimdir avtomobil modelini avtomobilning gaz yurgan yurishi, narxi va dvigatel kuchidan sotishni taxmin qilmoqchi bo'lsa, unda model nomining birinchi harfi yoki loyihalashtirish bo'yicha etakchi muhandisning balandligi kabi ahamiyatsiz omillarni kiritish mumkin. mashina, chunki R² o'zgaruvchilar qo'shilganda hech qachon kamaymaydi va ehtimol faqatgina tasodif tufayli o'sishni boshdan kechiradi.

Bu ga qarashning muqobil yondashuviga olib keladi sozlangan R². Ushbu statistikani tushuntirish deyarli bir xil R² ammo bu statistikani jazolaydi, chunki qo'shimcha o'zgaruvchilar modelga kiritilgan. Oddiy kichkina kvadratchalar o'rnatilgandan boshqa holatlar uchun R² statistikani yuqoridagi kabi hisoblash mumkin va baribir foydali o'lchov bo'lishi mumkin. Agar mos keladigan bo'lsa eng kichik kvadratchalar yoki umumlashtirilgan eng kichik kvadratchalar, ning muqobil versiyalari R² statistik asoslarga mos ravishda hisoblanishi mumkin, "xom" esa R² osonroq talqin qilinadigan bo'lsa, hali ham foydali bo'lishi mumkin. Uchun qiymatlar R² statistik asosga ega bo'lmagan har qanday bashoratli model uchun hisoblab chiqilishi mumkin.

Ko'p o'zgaruvchan chiziqli modelda

Bilan chiziqli modelni ko'rib chiqing bitta tushuntirish o'zgaruvchisidan ko'proq, shaklning

{ displaystyle Y_ {i} = beta _ {0} + sum _ {j = 1} ^ {p} beta _ {j} X_ {i, j} + varepsilon _ {i},}

qaerda, uchun menuchinchi holat, ${ displaystyle {Y_ {i}}}$ javob o'zgaruvchisi, ${ displaystyle X_ {i, 1}, dots, X_ {i, p}}$ bor p regressorlar va ${ displaystyle varepsilon _ {i}}$ o'rtacha nolga teng xato muddat. Miqdorlar ${ displaystyle beta _ {0}, dots, beta _ {p}}$ qiymati noma'lum bo'lgan koeffitsientlardir eng kichik kvadratchalar. Aniqlanish koeffitsienti R² modelning global muvofiqligi o'lchovidir. Xususan, R² [0, 1] elementidir va o'zgaruvchanlikning nisbatini ifodalaydi Y_men bu regressorlarning ba'zi bir chiziqli kombinatsiyasiga tegishli bo'lishi mumkin (tushuntirish o'zgaruvchilari ) ichida X.^[11]

R² ko'pincha modeldagi regressorlar tomonidan "izohlangan" javob o'zgarishi nisbati sifatida talqin etiladi. Shunday qilib, R² = 1 mos model barcha o'zgaruvchanlikni tushuntirib berishini ko'rsatadi ${ displaystyle y}$ , esa R² = 0 "chiziqli" munosabatlarni bildirmaydi (to'g'ri chiziqli regressiya uchun bu to'g'ri chiziq modeli doimiy chiziq (nishab = 0, kesma = ${ displaystyle { bar {y}}}$ ) javob o'zgaruvchisi va regressorlar o'rtasida). Kabi ichki qiymat R² = 0.7 ni quyidagicha talqin qilish mumkin: "Javob o'zgaruvchisidagi dispersiyaning 70 foizini tushuntiruvchi o'zgaruvchilar bilan izohlash mumkin. Qolgan o'ttiz foizni noma'lum deb hisoblash mumkin, yashirin o'zgaruvchilar yoki o'ziga xos o'zgaruvchanlik. "

Tegishli ogohlantirish R², ning boshqa statistik tavsiflariga kelsak o'zaro bog'liqlik va assotsiatsiya bu "korrelyatsiya sababni anglatmaydi. "Boshqacha qilib aytadigan bo'lsak, o'zaro bog'liqliklar ba'zida o'zgaruvchilar o'rtasidagi sababiy munosabatlarni aniqlashda qimmatli maslahatlar berishi mumkin bo'lsa-da, ikkita o'zgaruvchi o'rtasidagi nolga teng bo'lmagan korrelyatsiya o'z-o'zidan bitta o'zgaruvchining qiymatini o'zgartirishga olib keladigan dalil emas Masalan, gugurt (yoki zajigalka) olib yurish amaliyoti o'pka saratoni bilan bog'liq, ammo gugurtni olib yurish saratonga olib kelmaydi (standart "sabab" ma'nosida).

Eng kichik kvadratchalar bilan jihozlangan bitta regressor bo'lsa, R² ning kvadratidir Pearson mahsulot-moment korrelyatsiya koeffitsienti regressor va javob o'zgaruvchisi bilan bog'liq. Umuman olganda, R² - bu tuzilgan taxmin va javob o'zgaruvchisi o'rtasidagi o'zaro bog'liqlik kvadratidir. Bir nechta regressor bilan R² deb atash mumkin ko'p aniqlanish koeffitsienti.

Inflyatsiya R²

Yilda eng kichik kvadratchalar odatdagi ma'lumotlar yordamida regressiya, R² modeldagi regressorlar sonining ko'payishi bilan hech bo'lmaganda zaif o'sib bormoqda. Chunki regressorlar sonining ko'payishi qiymatini oshiradi R², R² yolg'iz o'zi mustaqil o'zgaruvchilarning har xil sonli modellarini mazmunli taqqoslash sifatida foydalanish mumkin emas. Ikki model o'rtasidagi mazmunli taqqoslash uchun F-testi da bajarilishi mumkin kvadratlarning qoldiq yig'indisi, F-testlariga o'xshash Grangerning sababi, garchi bu har doim ham mos kelmasa. Eslatib o'tamiz, ba'zi mualliflar buni ta'kidlashadi R² tomonidan R_q², qayerda q ustunlar soni X (doimiyni o'z ichiga olgan tushuntirishchilar soni).

Ushbu xususiyatni namoyish qilish uchun avval esda tutingki, eng kichik kvadratlarning chiziqli regressiya maqsadi

{ displaystyle min _ {b} SS _ { text {res}} (b) Rightarrow min _ {b} sum _ {i} (y_ {i} -X_ {i} b) ^ {2} ,}

qayerda X_men ish uchun tushuntiruvchi o'zgaruvchilar qiymatlarining qatorli vektori men va b ning tegishli elementlari koeffitsientlarining ustun vektori X_men.

Maqsadning maqbul qiymati zaifroq kichikroq, chunki ko'proq tushuntiruvchi o'zgaruvchilar qo'shiladi va shuning uchun qo'shimcha ustunlar ${ displaystyle X}$ (ma'lumotlar matritsasi kimning menuchinchi qator X_men) kamroq cheklangan minimallashtirish maqbul narxga olib keladi, chunki bu cheklangan minimallashtirishga qaraganda kuchsizroq. Oldingi xulosani hisobga olgan holda va buni ta'kidlash ${ displaystyle SS_ {tot}}$ faqat bog'liq y, ning kamaymaydigan xususiyati R² to'g'ridan-to'g'ri yuqoridagi ta'rifdan kelib chiqadi.

Qo'shimcha tushuntirish o'zgaruvchisidan foydalanib intuitiv sabab pastga tushira olmaydi R² bu: Minimallashtirish ${ displaystyle SS _ { text {res}}}$ maksimallashtirishga teng R². Qo'shimcha o'zgaruvchini qo'shganda, ma'lumotlar har doim taxmin qilingan nol koeffitsientini berish imkoniyatiga ega, bashorat qilingan qiymatlarni va R² o'zgarishsiz. Agar optimallashtirish muammosi nolga teng bo'lmagan koeffitsientni berishning yagona usuli - bu bajarilgan bo'lsa R².

Ogohlantirishlar

R² quyidagilarni ko'rsatmaydi:

mustaqil o'zgaruvchilar o'zgarishga sabab bo'ladi qaram o'zgaruvchi;
qoldirilgan-o'zgaruvchan tarafkashlik mavjud;
to'g'ri regressiya ishlatilgan;
mustaqil o'zgaruvchilarning eng mos to'plami tanlangan;
u yerda kollinearlik tushuntirish o'zgaruvchilari haqidagi ma'lumotlarda mavjud;
mavjud mustaqil o'zgaruvchilar to'plamining o'zgartirilgan versiyalari yordamida modelni takomillashtirish mumkin;
qat'iy xulosa qilish uchun etarli ma'lumot nuqtalari mavjud.

Kengaytmalar

Tuzatilgan R²

Tuzatilganidan foydalanish R² (bitta umumiy yozuv ${ displaystyle { bar {R}} ^ {2}}$ , "R bar kvadrat" deb talaffuz qilingan; boshqasi ${ displaystyle R _ { text {adj}} ^ {2}}$ ) bu hodisani hisobga olishga urinishdir R² qo'shimcha tushuntirish o'zgaruvchilari modelga qo'shilganda avtomatik ravishda va soxta ravishda ko'payadi. Tomonidan ishlab chiqarilgan Anri Teyl, bu o'zgartirish R² soniga moslashtiruvchi tushuntirish modeldagi atamalar ( ${ displaystyle p}$ ) ma'lumotlar punktlari soniga nisbatan ( ${ displaystyle n}$ ).^[12] Sozlangan R² sifatida belgilanadi

{ displaystyle { bar {R}} ^ {2} = 1- (1-R ^ {2}) {n-1 over n-p-1}}

qayerda p bu modeldagi izohlanuvchi o'zgaruvchilarning umumiy soni (doimiy atamani hisobga olmaganda) va n namuna hajmi, shuningdek quyidagicha yozilishi mumkin:

{ displaystyle { bar {R}} ^ {2} = {1- {SS _ { text {res}} / { text {df}} _ {e} over SS _ { text {tot}} / { text {df}} _ {t}}}}

qaerda df_t bo'ladi erkinlik darajasi n - qaram o'zgaruvchining populyatsiya dispersiyasi taxminining 1 va df_e erkinlik darajasidir n – p - Populyatsiya xatolarining asosiy dispersiyasi taxminining 1.

Sozlangan R² salbiy bo'lishi mumkin va uning qiymati har doimgidan kam yoki unga teng bo'ladi R². Aksincha R², sozlangan R² ko'payishi bilan ko'payadi R² (yangi tushuntirish o'zgaruvchisi kiritilganligi sababli) tasodifan ko'rishni kutganidan ko'p. Agar oldindan muhim ahamiyatga ega bo'lgan ierarxiyaga ega bo'lgan tushuntirish o'zgaruvchilari to'plami regressga birma-bir kiritilgan bo'lsa, R² har safar hisoblangan, uning darajasi sozlangan R² maksimal darajaga etadi va undan keyin pasayadi, ortiqcha va keraksiz shartlarsiz eng yaxshi moslashishga ega bo'lgan ideal kombinatsiya bilan regressiya bo'ladi.

Tuzatilgan R² aholining xolis (yoki unchalik xolis bo'lmagan) taxminchisi sifatida talqin qilinishi mumkin R²kuzatilgan namuna esa R² aholi qiymatining ijobiy xolis bahosi.^[13] Tuzatilgan R² modelga mos kelishini baholashda (mustaqil o'zgaruvchilar tomonidan hisobga olingan bog'liq o'zgaruvchidagi farq) va alternativ modellarni taqqoslashda xususiyatlarni tanlash namunaviy qurilish bosqichi.^[13]

O'rnatilgan asosning printsipi R² statistikani oddiy narsalarni qayta yozish orqali ko'rish mumkin R² kabi

{ displaystyle R ^ {2} = {1 - {{ textit {VAR}} _ { text {res}} over { textit {VAR}} _ { text {tot}}}}}}

qayerda ${ displaystyle { text {VAR}} _ { text {res}} = SS _ { text {res}} / n}$ va ${ displaystyle { text {VAR}} _ { text {tot}} = SS _ { text {tot}} / n}$ taxmin qilingan qoldiqlar va qaram o'zgaruvchining namunaviy farqlari bo'lib, ular xatolar va qaram o'zgaruvchilar populyatsiyasi dispersiyalarining xolis baholari sifatida qaralishi mumkin. Ushbu taxminlar statistik jihatdan almashtiriladi xolis versiyalar: ${ displaystyle { text {VAR}} _ { text {res}} = SS _ { text {res}} / (n-p-1)}$ va ${ displaystyle { text {VAR}} _ { text {tot}} = SS _ { text {tot}} / (n-1)}$ .

Qisman aniqlash koeffitsienti

Qisman aniqlash koeffitsienti qisqartirilgan modelda tushuntirib berilmaydigan, lekin to'liq (er) modelda ko'rsatilgan prediktorlar tomonidan tushuntirilishi mumkin bo'lgan o'zgarishning nisbati sifatida aniqlanishi mumkin.^[14]^[15]^[16] Ushbu koeffitsient bir yoki bir nechta qo'shimcha predikatorlarning to'liq aniqlangan regressiya modelida foydali bo'lishi yoki yo'qligi to'g'risida tushuncha berish uchun ishlatiladi.

Qisman uchun hisoblash R² ikkita modelni taxmin qilganidan va ANOVA ular uchun jadvallar. Qisman uchun hisoblash R² bu

{ displaystyle { frac {SS _ { text {res, redded}} - SS _ { text {res, full}}} {SS _ { text {res, redded}}}},}

bu odatdagi aniqlash koeffitsientiga o'xshash:

{ displaystyle { frac {SS _ { text {tot}} - SS _ { text {res}}} {SS _ { text {tot}}}}}.}

Umumlashtirish va parchalanish R² ^[17]

Yuqorida aytib o'tilganidek, Adjused kabi model tanlash evristikasi ${ displaystyle R ^ {2}}$ mezon va F-testi jami yoki yo'qligini tekshirib ko'ring ${ displaystyle R ^ {2}}$ modelga yangi regressor qo'shilishi kerakligini aniqlash uchun etarlicha ko'payadi. Agar modelga allaqachon kiritilgan boshqa regressorlar bilan juda bog'liq bo'lgan regressor qo'shilsa, unda jami ${ displaystyle R ^ {2}}$ yangi regressor dolzarb bo'lsa ham, deyarli ko'paymaydi. Natijada, yuqorida ko'rsatilgan evristika o'zaro bog'liqlik yuqori bo'lganda tegishli regressorlarni e'tiborsiz qoldiradi.

Ning geometrik tasviri

{ displaystyle r ^ {2}}

.

Shu bilan bir qatorda, ning umumlashtirilgan versiyasini ajratish mumkin ${ displaystyle R ^ {2}}$ farazdan chetga chiqishning dolzarbligini miqdoriy aniqlash.^[17] Hoornweg (2018) ko'rsatganidek, bir nechta qisqarishni taxmin qiluvchilar - masalan Bayesning chiziqli regressiyasi, tizma regressiyasi va (moslashuvchan) lasso - ning bu parchalanishidan foydalaning ${ displaystyle R ^ {2}}$ ular asta-sekin parametrlarni cheklanmagan OLS echimlaridan faraz qilingan qiymatlar tomon qisqartirganda. Avval chiziqli regressiya modelini quyidagicha aniqlaylik

{ displaystyle y = X beta + varepsilon.}

Matritsa deb taxmin qilinadi ${ displaystyle X}$ Z-ballari va ustun vektori bilan standartlangan ${ displaystyle y}$ o'rtacha nolga tenglashtiriladi. Ustun vektoriga ruxsat bering ${ displaystyle beta _ {0}}$ faraz qilingan regressiya parametrlariga murojaat qiling va ustun vektoriga yo'l qo'ying ${ displaystyle b}$ taxmin qilingan parametrlarni belgilang. Keyin biz aniqlay olamiz

{ displaystyle R ^ {2} = 1 - { frac {(y-Xb) '(y-Xb)} {(yX beta _ {0})' (yX beta _ {0})}}. }

An ${ displaystyle R ^ {2}}$ 75% degani, ma'lumotlar optimallashtirilgan bo'lsa, namunadagi aniqlik 75% ga yaxshilanadi ${ displaystyle b}$ gipoteza o'rniga echimlardan foydalaniladi ${ displaystyle beta _ {0}}$ qiymatlar. Maxsus holatda ${ displaystyle beta _ {0}}$ nollarning vektori, biz an'anaviyni qo'lga kiritamiz ${ displaystyle R ^ {2}}$ yana.

Shaxsiy ta'sir ${ displaystyle R ^ {2}}$ farazdan chetga chiqish bilan hisoblash mumkin ${ displaystyle R ^ { otimes}}$ ('R-tashqi'). Bu ${ displaystyle p}$ marta ${ displaystyle p}$ matritsa tomonidan berilgan

{ displaystyle R ^ { otimes} = (X '{ tilde {y}} _ {0}) (X' { tilde {y}} _ {0}) '(X'X) ^ {- 1 } ({ tilde {y}} _ {0} '{ tilde {y}} _ {0}) ^ {- 1},}

qayerda ${ displaystyle { tilde {y}} _ {0} = y-X beta _ {0}}$ . Ning diagonal elementlari ${ displaystyle R ^ { otimes}}$ to'liq qo'shish ${ displaystyle R ^ {2}}$ . Agar regressorlar o'zaro bog'liq bo'lmagan bo'lsa va ${ displaystyle beta _ {0}}$ nollarning vektori, keyin esa ${ displaystyle j ^ { text {th}}}$ ning diagonal elementi ${ displaystyle R ^ { otimes}}$ ga shunchaki mos keladi ${ displaystyle r ^ {2}}$ orasidagi qiymat ${ displaystyle x_ {j}}$ va ${ displaystyle y}$ . Qachon regressorlar ${ displaystyle x_ {i}}$ va ${ displaystyle x_ {j}}$ o'zaro bog'liq, ${ displaystyle R_ {ii} ^ { otimes}}$ ning pasayishi evaziga o'sishi mumkin ${ displaystyle R_ {jj} ^ { otimes}}$ . Natijada, ning diagonal elementlari ${ displaystyle R ^ { otimes}}$ 0 dan kichikroq va alohida holatlarda 1dan kattaroq bo'lishi mumkin. Bunday noaniqliklar bilan kurashish uchun bir nechta qisqarishni taxmin qiluvchilar to'g'ridan-to'g'ri diagonali elementlarning o'rtacha og'irligini olishadi ${ displaystyle R ^ { otimes}}$ faraz qilingan qiymatdan chetga chiqishning dolzarbligini aniqlash.^[17] Ustiga bosing lasso misol uchun.

R² logistik regressiyada

Bo'lgan holatda logistik regressiya, odatda mos keladi maksimal ehtimollik, bir nechta tanlov mavjud psevdo-R².

Ulardan biri umumlashtirilgan R² dastlab Cox & Snell tomonidan taklif qilingan,^[18] va Magee tomonidan mustaqil ravishda:^[19]

{ displaystyle R ^ {2} = 1- chap ({{ mathcal {L}} (0) over { mathcal {L}} ({ widehat { theta}})} right) ^ { 2 / n}}

qayerda ${ displaystyle { mathcal {L}} (0)}$ modelning faqatgina tutib olish ehtimoli, ${ displaystyle {{ mathcal {L}} ({ widehat { theta}})}}$ taxmin qilingan modelning ehtimoli (ya'ni, parametrlarning taxminiy to'plami berilgan model) va n namuna hajmi. U osongina qayta yoziladi:

{ displaystyle R ^ {2} = 1-e ^ {{ frac {2} {n}} ( ln ({ mathcal {L}} (0)) - ln ({ mathcal {L}}) ({ widehat { theta}}))} = 1-e ^ {- D / n}}

qayerda D. ning test statistikasi ehtimollik koeffitsienti testi.

Nagelkerke^[20] quyidagi xususiyatlarga ega ekanligini ta'kidladi:

U ikkalasini ham hisoblash mumkin bo'lganda klassik aniqlash koeffitsientiga mos keladi;
Uning qiymati modelning maksimal ehtimollik bahosi bilan maksimal darajaga ko'tariladi;
Namuna o'lchamidan asimptotik ravishda mustaqil;
Interpretatsiya - bu model bilan izohlangan variatsiyaning nisbati;
Qiymatlar 0 dan 1 gacha, 0 bu model hech qanday o'zgarishni tushuntirmasligini va 1 kuzatilgan o'zgarishni mukammal tushuntirganligini bildiradi;
Unda hech qanday birlik yo'q.

Biroq, logistik model bo'lsa, qaerda ${ displaystyle { mathcal {L}} ({ widehat { theta}})}$ 1 dan katta bo'lishi mumkin emas, R² 0 va orasida ${ displaystyle R _ { max} ^ {2} = 1 - ({ mathcal {L}} (0)) ^ {2 / n}}$ : Shunday qilib, Nagelkerke miqyosni aniqlash imkoniyatini taklif qildi R² kabi R²/R²_maksimal.^[21]

Qoldiqlar normasi bilan taqqoslash

Ba'zan norma qoldiqlari yaroqliligini ko'rsatish uchun ishlatiladi. Ushbu atama ning kvadrat-ildizi sifatida hisoblanadi qoldiqlar kvadratlari yig'indisi:

{ displaystyle { text {norm of qoldiqlari}} = { sqrt {SS _ { text {res}}}} = | e |.}

Ikkalasi ham R² va qoldiqlar normasi o'zlarining nisbiy afzalliklariga ega. Uchun eng kichik kvadratchalar tahlil R² 0 va 1 orasida o'zgarib turadi, kattaroq raqamlar yaxshiroq mosligini ko'rsatib beradi va 1 mukammal moslikni anglatadi. Qoldiqlarning me'yori 0 dan cheksizgacha o'zgarib turadi, kichikroq raqamlar yaxshi moslikni va nolga mos kelishini bildiradi. Bitta afzalligi va kamchiliklari R² bo'ladi ${ displaystyle SS _ { text {tot}}}$ muddatli amal qiladi normallashtirish qiymati. Agar y_men qiymatlarning barchasi doimiyga ko'paytiriladi, qoldiqlar normasi ham shu doimiyga o'zgaradi lekin R² bir xil bo'lib qoladi. Asosiy misol sifatida, chiziqli eng kichik kvadratchalar ma'lumotlar to'plamiga mos keladi:

{ displaystyle { begin {array} {rcrrrrr} x & = & 1, & 2, & 3, & 4, & 5 y & = & 1.9, & 3.7, & 5.8, & 8.0, & 9.6 end {array }}}

R² = 0.998, va qoldiq normasi = 0.302. Agar barcha qiymatlari bo'lsa y 1000 ga ko'paytiriladi (masalan, SI prefiksi o'zgartirish), keyin R² bir xil bo'lib qolmoqda, ammo qoldiq normasi = 302.

Boshqa bitta parametr ko'rsatkichi RMSE qoldiqlari yoki qoldiqlarning standart og'ishi. Yuqorida keltirilgan misol uchun bu 0,135 qiymatiga ega bo'lar edi, chunki u majburiy kesma bilan chiziqli edi.^[22]

Tarix

Aniqlanish koeffitsientini yaratish genetikga tegishli Rayt Rayt va birinchi marta 1921 yilda nashr etilgan.^[23]

Shuningdek qarang

Izohlar

^ Chelik, R. G. D .; Torrie, J. H. (1960). Biologiya fanlari uchun maxsus ma'lumotlarga ega bo'lgan statistika printsiplari va protseduralari. McGraw tepaligi.
^ Glantz, Stanton A.; Slinker, B. K. (1990). Amaliy regressiya va o'zgaruvchanlik tahlili. McGraw-Hill. ISBN 978-0-07-023407-9.
^ Draper, N. R .; Smit, H. (1998). Amaliy regressiya tahlili. Wiley-Intertersience. ISBN 978-0-471-17082-2.
^ Devore, Jey L. (2011). Muhandislik va fanlar uchun ehtimollik va statistika (8-nashr). Boston, MA: Cengage Learning. 508-510 betlar. ISBN 978-0-538-73352-6.
^ Barten, Anton P. (1987). "Doimiy muddatsiz regressiyani aniqlash koeffitsienti". Heijmansda, Risto; Noydker, Xaynts (tahr.) Ekonometriya amaliyoti. Dordrext: Klyuver. 181-189 betlar. ISBN 90-247-3502-5.
^ Kolin Kemeron, A .; Vindmayer, Frank A.G. (1997). "Ba'zi keng tarqalgan chiziqli bo'lmagan regressiya modellariga mos keladigan R-kvadratik o'lchov o'lchovi". Ekonometriya jurnali. 77 (2): 1790–2. doi:10.1016 / S0304-4076 (96) 01818-0.
^ Legates, D.R .; Makkeyb, GJ (1999). "Gidrologik va gidroklimatik modellarni tasdiqlashda" yaroqlilik "choralaridan foydalanishni baholash". Suv resurslari. Res. 35 (1): 233–241. doi:10.1029 / 1998WR900018.
^ Ritter, A .; Muñoz-Carpena, R. (2013). "Gidrologik modellarning samaradorligini baholash: moslikni baholashda sub'ektivlikni kamaytirish uchun statistik ahamiyatga". Gidrologiya jurnali. 480 (1): 33–45. doi:10.1016 / j.jhydrol.2012.12.004.
^ Everitt, B. S. (2002). Kembrij statistika lug'ati (2-nashr). Kubok. ISBN 978-0-521-81099-9.
^ Kvalset, Tarald O. (1985). "R2 haqida ogohlantirish". Amerika statistikasi. 39 (4): 279–285. doi:10.2307/2683704. JSTOR 2683704.
^ Polinom regressiyalari uchun tuzatilgan R2 hisoblash
^ Theil, Anri (1961). Iqtisodiy prognozlar va siyosat. Gollandiya, Amsterdam: Shimoliy. p. 213.
^ ^a ^b Shieh, Gvoven (2008-04-01). "Ko'p sonli korrelyatsiya koeffitsienti va kvadratik o'zaro bog'liqlik koeffitsientining qisqarishini baholash yaxshilandi". Tashkiliy tadqiqot usullari. 11 (2): 387–407. doi:10.1177/1094428106292901. ISSN 1094-4281. S2CID 55098407.
^ Richard Anderson-Sprecher "Model taqqoslashlar va R² ", Amerika statistikasi, 48-jild, 1994 yil 2-son, 113–117-betlar.
^ (ga umumlashtirildi Maksimal ehtimollik ) N. J. D. Nagelkerke, "Aniqlash koeffitsientining umumiy ta'rifi to'g'risida eslatma ", Biometrika, Jild 78, № 3. (1991 yil sentyabr), 691-692-betlar.
^ "Qisman aniqlash koeffitsientini amalga oshirish"
^ ^a ^b ^v Hoornweg, Viktor (2018). "II qism: parametrlarni barqaror saqlash to'g'risida". Ilmiy: Yuborilgan holda. Hoornweg Press. ISBN 978-90-829188-0-9.
^ Koks, D. D .; Snell, E. J. (1989). Ikkilik ma'lumotlarning tahlili (2-nashr). Chapman va Xoll.
^ Magee, L. (1990). "R² Wald va ehtimollik koeffitsienti bo'yicha qo'shma ahamiyatlilik testlariga asoslangan tadbirlar " Amerika statistikasi. 44. 250-3 betlar. doi:10.1080/00031305.1990.10475731.
^ Nagelkerke, Nico J. D. (1992). Funktsional munosabatlarning maksimal ehtimolligini baholash, Pays-Bas. Statistika bo'yicha ma'ruza yozuvlari. 69. ISBN 978-0-387-97721-8.
^ Nagelkerke, N. J. D. (1991). "Aniqlash koeffitsientining umumiy ta'rifi to'g'risida eslatma". Biometrika. 78 (3): 691–2. doi:10.1093 / biomet / 78.3.691. JSTOR 2337038.
^ OriginLab veb-sahifasi, http://www.originlab.com/doc/Origin-Help/LR-Algorithm. Qabul qilingan 2016 yil 9-fevral.
^ Rayt, Syuell (1921 yil yanvar). "Korrelyatsiya va sabablilik". Qishloq xo'jaligi tadqiqotlari jurnali. 20: 557–585.

Qo'shimcha o'qish

Gujarati, Damodar N.; Porter, Dawn C. (2009). Asosiy ekonometriya (Beshinchi nashr). Nyu-York: McGraw-Hill / Irwin. 73-78 betlar. ISBN 978-0-07-337577-9.
Xyuz, Enn; Gravoyg, Dennis (1971). Statistika: Tahlil uchun asos. O'qish: Addison-Uesli. pp.344–348. ISBN 0-201-03021-7.
Kmenta, yanvar (1986). Ekonometriya elementlari (Ikkinchi nashr). Nyu-York: Makmillan. pp.240–243. ISBN 978-0-02-365070-3.
Lyuis-Bek, Maykl S.; Skalaban, Endryu (1990). " R-Squared: Ba'zi to'g'ri suhbat ". Siyosiy tahlil. 2: 153–171. doi:10.1093 / pan / 2.1.153. JSTOR 23317769.

[1] Chelik, R. G. D .; Torrie, J. H. (1960). Biologiya fanlari uchun maxsus ma'lumotlarga ega bo'lgan statistika printsiplari va protseduralari. McGraw tepaligi.

[2] Glantz, Stanton A.; Slinker, B. K. (1990). Amaliy regressiya va o'zgaruvchanlik tahlili. McGraw-Hill. ISBN 978-0-07-023407-9.

[3] Draper, N. R .; Smit, H. (1998). Amaliy regressiya tahlili. Wiley-Intertersience. ISBN 978-0-471-17082-2.

[Devore-4] Devore, Jey L. (2011). Muhandislik va fanlar uchun ehtimollik va statistika (8-nashr). Boston, MA: Cengage Learning. 508-510 betlar. ISBN 978-0-538-73352-6.

[5] Barten, Anton P. (1987). "Doimiy muddatsiz regressiyani aniqlash koeffitsienti". Heijmansda, Risto; Noydker, Xaynts (tahr.) Ekonometriya amaliyoti. Dordrext: Klyuver. 181-189 betlar. ISBN 90-247-3502-5.

[6] Kolin Kemeron, A .; Vindmayer, Frank A.G. (1997). "Ba'zi keng tarqalgan chiziqli bo'lmagan regressiya modellariga mos keladigan R-kvadratik o'lchov o'lchovi". Ekonometriya jurnali. 77 (2): 1790–2. doi:10.1016 / S0304-4076 (96) 01818-0.

[7] Legates, D.R .; Makkeyb, GJ (1999). "Gidrologik va gidroklimatik modellarni tasdiqlashda" yaroqlilik "choralaridan foydalanishni baholash". Suv resurslari. Res. 35 (1): 233–241. doi:10.1029 / 1998WR900018.

[8] Ritter, A .; Muñoz-Carpena, R. (2013). "Gidrologik modellarning samaradorligini baholash: moslikni baholashda sub'ektivlikni kamaytirish uchun statistik ahamiyatga". Gidrologiya jurnali. 480 (1): 33–45. doi:10.1016 / j.jhydrol.2012.12.004.

[9] Everitt, B. S. (2002). Kembrij statistika lug'ati (2-nashr). Kubok. ISBN 978-0-521-81099-9.

[10] Kvalset, Tarald O. (1985). "R2 haqida ogohlantirish". Amerika statistikasi. 39 (4): 279–285. doi:10.2307/2683704. JSTOR 2683704.

[11] Polinom regressiyalari uchun tuzatilgan R2 hisoblash

[12] Theil, Anri (1961). Iqtisodiy prognozlar va siyosat. Gollandiya, Amsterdam: Shimoliy. p. 213.

[:0-13] Shieh, Gvoven (2008-04-01). "Ko'p sonli korrelyatsiya koeffitsienti va kvadratik o'zaro bog'liqlik koeffitsientining qisqarishini baholash yaxshilandi". Tashkiliy tadqiqot usullari. 11 (2): 387–407. doi:10.1177/1094428106292901. ISSN 1094-4281. S2CID 55098407.

[14] Richard Anderson-Sprecher "Model taqqoslashlar va R² ", Amerika statistikasi, 48-jild, 1994 yil 2-son, 113–117-betlar.

[15] (ga umumlashtirildi Maksimal ehtimollik ) N. J. D. Nagelkerke, "Aniqlash koeffitsientining umumiy ta'rifi to'g'risida eslatma ", Biometrika, Jild 78, № 3. (1991 yil sentyabr), 691-692-betlar.

[16] "Qisman aniqlash koeffitsientini amalga oshirish"

[Hoornweg2018SUS-17] v Hoornweg, Viktor (2018). "II qism: parametrlarni barqaror saqlash to'g'risida". Ilmiy: Yuborilgan holda. Hoornweg Press. ISBN 978-90-829188-0-9.

[18] Koks, D. D .; Snell, E. J. (1989). Ikkilik ma'lumotlarning tahlili (2-nashr). Chapman va Xoll.

[19] Magee, L. (1990). "R² Wald va ehtimollik koeffitsienti bo'yicha qo'shma ahamiyatlilik testlariga asoslangan tadbirlar " Amerika statistikasi. 44. 250-3 betlar. doi:10.1080/00031305.1990.10475731.

[20] Nagelkerke, Nico J. D. (1992). Funktsional munosabatlarning maksimal ehtimolligini baholash, Pays-Bas. Statistika bo'yicha ma'ruza yozuvlari. 69. ISBN 978-0-387-97721-8.

[21] Nagelkerke, N. J. D. (1991). "Aniqlash koeffitsientining umumiy ta'rifi to'g'risida eslatma". Biometrika. 78 (3): 691–2. doi:10.1093 / biomet / 78.3.691. JSTOR 2337038.

[origin_wp-22] OriginLab veb-sahifasi, http://www.originlab.com/doc/Origin-Help/LR-Algorithm. Qabul qilingan 2016 yil 9-fevral.

[23] Rayt, Syuell (1921 yil yanvar). "Korrelyatsiya va sabablilik". Qishloq xo'jaligi tadqiqotlari jurnali. 20: 557–585.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]