Tasniflash qoidasi - Classification rule

A'zolari har biri turli xil to'plamlardan biriga tegishli bo'lgan populyatsiya berilgan sinflar, a tasniflash qoidasi yoki klassifikator populyatsiya to'plamining elementlari har biri sinflardan biriga tegishli deb taxmin qilinadigan protsedura.[1] Ajoyib tasnif populyatsiyaning har bir elementi haqiqatan ham tegishli bo'lgan sinfga biriktirilgan narsadir. Nomukammal tasnif - bu ba'zi xatolar paydo bo'ladigan, keyin esa statistik tahlil tasnifni tahlil qilish uchun qo'llanilishi kerak.

Tasniflash qoidalarining alohida turi ikkilik tasnif, faqat ikkita sinf mavjud bo'lgan muammolar uchun.

Sinovlarni tasniflash qoidalari

Juftliklardan tashkil topgan ma'lumotlar to'plami berilgan x va y, qayerda x populyatsiyaning elementini bildiradi va y u tegishli bo'lgan sinf, tasniflash qoidasi h(x) har bir elementni tayinlaydigan funktsiya x bashorat qilingan sinfga Ikkilik tasnif shundayki, yorliq y ikkita qiymatdan faqat bittasini olishi mumkin.

Haqiqiy yorliqlar ymen ma'lum bo'lishi mumkin, ammo ularning taxminiy ko'rsatkichlariga mos kelmasligi shart . Ikkilik tasnifda to'g'ri tasniflanmagan elementlar noto'g'ri ijobiy va noto'g'ri negativ deb nomlanadi.

Ba'zi tasniflash qoidalari statik funktsiyalardir. Boshqalari kompyuter dasturlari bo'lishi mumkin. A kompyuter klassifikatori statik tasniflash qoidalarini o'rganishi yoki amalga oshirishi mumkin. Ma'lumotlar to'plami uchun haqiqiy yorliqlar yj noma'lum, ammo bu tasniflash protsedurasi uchun asosiy maqsad iloji boricha, bu taxminiylik sifatini kelajakda kuzatuvlar olib boriladigan umumiy populyatsiyaning statistik yoki ehtimollik xususiyatlari asosida baholash kerak.

Tasniflash qoidasini hisobga olgan holda, a tasniflash testi dastlabki ma'lumotlar to'plamining cheklangan namunasiga qoidani qo'llash natijasidir.

Ikkilik va ko'p sinfli tasnif

Tasnifni ikkita alohida muammo deb hisoblash mumkin - ikkilik tasnif va ko'p sinfli tasnif. Ikkilik tasniflashda yaxshiroq tushunilgan vazifa faqat ikkita sinfdan iborat bo'lsa, ko'p sinfli tasniflash ob'ektni bir nechta sinflardan biriga berishni o'z ichiga oladi.[2] Ko'p sonli tasniflash usullari ikkilik tasniflash uchun maxsus ishlab chiqilganligi sababli, ko'p sinfli tasnif ko'pincha bir nechta ikkilik klassifikatorlardan birgalikda foydalanishni talab qiladi. Muhim nuqta shundaki, ko'plab amaliy ikkilik tasniflash muammolarida ikkala guruh nosimmetrik emas - umumiy aniqlik o'rniga, har xil turdagi xatolarning nisbiy nisbati qiziqish uyg'otadi. Masalan, tibbiy tekshiruvlarda soxta ijobiy (kasallik mavjud bo'lmaganda uni aniqlash) yolg'on salbiydan farq qiladi (kasallik mavjud bo'lganda aniqlanmaydi). Ko'p sinfli tasniflarda sinflar nosimmetrik (barcha xatolar teng) yoki asimmetrik tarzda ko'rib chiqilishi mumkin, bu ancha murakkab.

Ikkilik tasniflash usullari kiradi probit regressiyasi va logistik regressiya. Ko'p sinflarni tasniflash usullari quyidagilarni o'z ichiga oladi multinomial probit va multinomial logit.

Chalkashliklar jadvali

Chapda va o'ngda, o'z navbatida, shartlar mavjud va mavjud bo'lmagan holatlarni o'z ichiga oladi. Oval ijobiy deb tasniflangan (taxmin qilingan) holatlarni o'z ichiga oladi (shartga ega). Yashil va qizil navbati bilan to'g'ri (to'g'ri) va noto'g'ri (yolg'on), tasniflangan holatlar mavjud.
TP = Haqiqiy ijobiy; TN = Haqiqiy salbiy; FP = Noto'g'ri ijobiy (I tipdagi xato); FN = Soxta Salbiy (II turdagi xato); TPR = Haqiqiy ijobiy ko'rsatkich; FPR = Noto'g'ri ijobiy ko'rsatkich; PPV = Ijobiy bashorat qiluvchi qiymat; NPV = Salbiy bashorat qiluvchi qiymat.

Tasniflash funktsiyasi mukammal bo'lmaganida, noto'g'ri natijalar paydo bo'ladi. Quyidagi chalkashlik matritsasidagi misolda, amaldagi 8 ta mushukning uchtasi it, oltita itdan bittasi quyon, ikkitasi mushuk deb taxmin qilgan. Matritsadan ko'rib chiqilayotgan tizim mushuk va itni ajratishda muammolarga duch kelayotganini ko'rishimiz mumkin, ammo quyonlar va boshqa turdagi hayvonlarni juda yaxshi ajratib turishi mumkin.

Chalkashlik matritsasi misoli
Bashorat qilingan
MushukItQuyon
Haqiqiy
Mushuk530
It231
Quyon0211

Noto'g'ri ijobiy

Noto'g'ri ijobiy test noto'g'ri (noto'g'ri) ijobiy natija haqida xabar berganida natijasi. Masalan, a tibbiy test a kasallik bemorda kasallik bo'lmasa ham, bemorda kasallik borligini ko'rsatuvchi ijobiy natija berishi mumkin. Noto'g'ri ijobiy odatda a-dagi yuqori o'ng (Vaziyat salbiy X sinov natijasi ijobiy) birlik sifatida belgilanadi Chalkashlik matritsasi. Biz foydalanishimiz mumkin Bayes teoremasi ijobiy natija aslida soxta ijobiy bo'lish ehtimolini aniqlash. Agar kasallik kamdan-kam uchraydigan bo'lsa, unda ijobiy natijalarning aksariyati noto'g'ri ijobiy bo'lishi mumkin, hatto test nisbatan aniq bo'lsa ham.

Aytaylik, kasallik uchun test quyidagi natijalarni beradi:

  • Agar sinovdan o'tgan bemorda kasallik bo'lsa, test 99% ijobiy natija beradi yoki 0,99 ehtimol bilan
  • Agar sinovdan o'tgan bemorda kasallik bo'lmasa, test 5% ijobiy natija beradi yoki 0,05 ehtimol bilan.

Oddiy ravishda, testlarning ijobiy natijalarining atigi 5 foizi yolg'on deb o'ylashi mumkin, ammo bu juda noto'g'ri, biz ko'rib turganimizdek.

Aytaylik, aholining atigi 0,1 foizida ushbu kasallik bor, shuning uchun tasodifiy tanlangan bemorda kasallikka chalinish ehtimoli 0,001 ga teng.

Biz Bayes teoremasidan foydalanib, testning ijobiy natijasi noto'g'ri ijobiy bo'lish ehtimolini hisoblaymiz.

Ruxsat bering A bemorda kasallik bo'lgan holatni ifodalaydi va B ijobiy sinov natijalarining dalillarini ifodalaydi. Keyinchalik, bemorning haqiqatan ham kasallikka chalinish ehtimoli ijobiy test natijasini beradi

va shuning uchun ijobiy natija noto'g'ri ijobiy bo'lishi ehtimoli taxminan 1 - 0,019 = 0,98 yoki 98% ni tashkil qiladi.

Sinovning aniq yuqori aniqligiga qaramay, kasallik darajasi shunchalik pastki, testni ijobiy o'tkazgan bemorlarning aksariyati kasallikka ega emas. Shunga qaramay, testni ijobiy o'tkazgan bemorlarning ulushi (0,019) bu kasallikka chalingan odamlarning (0,001) ulushidan 19 baravar ko'pdir. Shunday qilib, test befoyda emas va qayta sinov natijaning ishonchliligini oshirishi mumkin.

Noto'g'ri pozitivlar muammosini kamaytirish uchun test sinovida juda aniq bo'lishi kerak salbiy bemorda kasallik bo'lmasa, natijada. Agar test 0.999 ehtimoli bo'lgan kasalliksiz bemorlarda salbiy natija qayd etgan bo'lsa, unda

shuning uchun hozir 1 - 0,5 = 0,5 soxta musbatning ehtimoli.

Soxta salbiy

Boshqa tarafdan, yolg'on salbiy test noto'g'ri natijani noto'g'ri yoki noto'g'ri xabar berganida natijasi. Masalan, kasallik uchun tibbiy tekshiruv natijasida bemorda xastalik mavjud emasligiga qaramay, uning kasalligi yo'qligini ko'rsatuvchi salbiy natija bo'lishi mumkin. Noto'g'ri manfiy odatda a ning pastki chap qismi (X holati ijobiy X sinov natijalari salbiy) birlik sifatida belgilanadi Chalkashlik matritsasi. Noto'g'ri salbiy ehtimolini hisoblash uchun Bayes teoremasidan ham foydalanishimiz mumkin. Yuqoridagi birinchi misolda,

Salbiy natija soxta salbiy bo'lish ehtimoli taxminan 0,0000105 yoki 0,00105% ni tashkil qiladi. Kasallik kamdan-kam hollarda, noto'g'ri negativlar testda katta muammo bo'lmaydi.

Ammo agar aholining 60% kasallikka chalingan bo'lsa, unda noto'g'ri salbiy ehtimollik katta bo'ladi. Yuqoridagi test bilan noto'g'ri salbiy ehtimollik bo'ladi

Salbiy natija soxta salbiy bo'lishi ehtimoli 0,0155 yoki 1,55% gacha ko'tariladi.

Haqiqiy ijobiy

Haqiqiy ijobiy natijalar, agar sinovdan o'tgan haqiqiy (to'g'ri) ijobiy natija haqida xabar bersa. Masalan, a tibbiy test a kasallik bemorda kasallik borligini ko'rsatadigan ijobiy natija berishi mumkin. Bemorda kasallik bo'lganida, bu to'g'ri ekanligi ko'rsatilgan. Haqiqiy ijobiy odatda a-dagi yuqori chap (shart ijobiy X sinov natijasi ijobiy) birlik sifatida belgilanadi Chalkashlik matritsasi. Biz foydalanishimiz mumkin Bayes teoremasi yuqoridagi misol yordamida ijobiy natija aslida haqiqiy ijobiy bo'lish ehtimolini aniqlash uchun:

  • Agar sinovdan o'tgan bemorda kasallik bo'lsa, test 99% ijobiy natija beradi yoki 0,99 ehtimol bilan.
  • Agar tekshirilgan bemorda kasallik bo'lmasa, test 5% ijobiy natija beradi yoki 0,05 ehtimollik bilan.
  • Aytaylik, aholining atigi 0,1 foizida ushbu kasallik mavjud, shuning uchun tasodifiy tanlangan bemorda kasallikka chalinish ehtimoli 0,001 ga teng.

A bemorda kasallikka chalingan holatni, B esa ijobiy test natijalarining dalillarini bildirsin. Keyinchalik, bemorda haqiqatan ham kasallikka chalinish ehtimoli ijobiy test natijasini beradi:

Ijobiy natija haqiqiy ijobiy bo'lish ehtimoli taxminan 0,019% ni tashkil qiladi.

Haqiqiy salbiy

Sinov qilingan haqiqiy (to'g'ri) salbiy natija haqida xabar berganida haqiqiy salbiy natija. Masalan, a tibbiy test a kasallik bemorda kasallik yo'qligini ko'rsatadigan ijobiy natija berishi mumkin. Bemorda kasallik bo'lmasa, bu to'g'ri ekanligi ko'rsatilgan. Haqiqiy manfiy odatda a ning pastki o'ng qismi (X holati salbiy X sinov natijalari salbiy) birlik sifatida belgilanadi Chalkashlik matritsasi.

Biz ham foydalanishimiz mumkin Bayes teoremasi haqiqiy salbiy ehtimolini hisoblash uchun. Yuqoridagi misollardan foydalanib:

  • Agar sinovdan o'tgan bemorda kasallik bo'lsa, test 99% ijobiy natija beradi yoki 0,99 ehtimol bilan.
  • Agar tekshirilgan bemorda kasallik bo'lmasa, test 5% ijobiy natija beradi yoki 0,05 ehtimollik bilan.
  • Aytaylik, aholining atigi 0,1 foizida ushbu kasallik bor, shuning uchun tasodifiy tanlangan bemorda kasallikka chalinish ehtimoli 0,001 ga teng.

A bemorda kasallikka chalingan holatni, B esa ijobiy test natijalarining dalillarini bildirsin. Keyinchalik, bemorda haqiqatan ham kasallikka chalinish ehtimoli ijobiy test natijasini beradi:

Salbiy natija haqiqiy manfiy bo'lish ehtimoli 1 - 0,0000105 = 0,9999895 yoki 99,99%. Kasallik kamdan-kam uchraydigan va musbatdan ijobiy darajaga yuqori, salbiydan salbiyga nisbatan yuqori bo'lganligi sababli, bu katta Haqiqiy salbiy ko'rsatkichni keltirib chiqaradi.

Ishlagan misol

Ishlagan misol
Aholining keng tarqalishi 1,48% bo'lgan kasallikni izlash uchun 2030 kishiga nisbatan 67% sezuvchanlik va 91% o'ziga xoslik bilan diagnostika testi qo'llaniladi.
Bemorlar ichak saratoni
(tasdiqlanganidek endoskopiya )
Vaziyat ijobiyVaziyat salbiyTarqalishi
= (TP + FN) / Total_Population
= (20+10)/2030
1.48%
Aniqlik (ACC) =
(TP + TN) / Total_Population
= (20+1820)/2030
90.64%
Najas
yashirin
qon

ekran
sinov
natija
Sinov
natija
ijobiy
Haqiqiy ijobiy
(TP) = 20
(2030 x 1,48% x 67%)
Noto'g'ri ijobiy
(FP) = 180
(2030 x (100 - 1.48%) x (100 - 91%))
Ijobiy taxminiy qiymat (PPV), Aniqlik
= TP / (TP + FP)
= 20 / (20 + 180)
= 10%
Noto'g'ri kashfiyot darajasi (FDR)
= FP / (TP + FP)
= 180/(20+180)
= 90.0%
Sinov
natija
salbiy
Noto'g'ri salbiy
(FN) = 10
(2030 x 1,48% x (100 - 67%))
Haqiqiy salbiy
(TN) = 1820
(2030 x (100 -1.48%) x 91%)
Noto'g'ri tashlab qo'yish darajasi (UCHUN)
= FN / (FN + TN)
= 10 / (10 + 1820)
0.55%
Salbiy bashorat qiluvchi qiymat (NPV)
= TN / (FN + TN)
= 1820 / (10 + 1820)
99.45%
TPR, Eslatib o'tamiz, Ta'sirchanlik
= TP / (TP + FN)
= 20 / (20 + 10)
66.7%
Noto'g'ri ijobiy stavka (FPR),Qatordan chiqib ketish, yolg'on signal berish ehtimoli
= FP / (FP + TN)
= 180/(180+1820)
=9.0%
Ijobiy ehtimollik darajasi (LR +)
= TPR/FPR
= (20/30)/(180/2000)
7.41
Diagnostik stavkalar nisbati (DOR) = LR +/LR−
20.2
F1 Xol = 2 · Aniqlik · Eslatib o'tamiz/Aniqlik + qaytarib olish
0.174
Soxta salbiy ko'rsatkich (FNR), Miss stavkasi
= FN / (TP + FN)
= 10/(20+10)
33.3%
Xususiyat, Selektivlik, Haqiqiy salbiy ko'rsatkich (TNR)
= TN / (FP + TN)
= 1820 / (180 + 1820)
= 91%
Salbiy ehtimollik darajasi (LR−)
= FNR/TNR
= (10/30)/(1820/2000)
0.366

Tegishli hisob-kitoblar

  • Soxta ijobiy tezlik (a) = I tipdagi xato = 1 - o'ziga xoslik = FP / (FP + TN) = 180 / (180 + 1820) = 9%
  • Soxta salbiy tezlik (β) = II turdagi xato = 1 - sezgirlik = FN / (TP + FN) = 10 / (20 + 10) = 33%
  • Quvvat = sezgirlik = 1 - β
  • Imkoniyat darajasi ijobiy = sezgirlik / (1 - o'ziga xoslik) = 0.67 / (1 - 0.91) = 7.4
  • Mumkinlik koeffitsienti salbiy = (1 - sezgirlik) / o'ziga xoslik = (1 - 0.67) / 0.91 = 0.37
  • Tarqalish chegarasi = = 0.19 => 19.1%

Ushbu gipotetik skrining tekshiruvi (najas bilan yashirin qon testi) kolorektal saraton kasalligiga chalingan bemorlarning uchdan ikki qismini (66,7%) to'g'ri aniqladi.[a] Afsuski, tarqalish stavkalarini faktoring qilish ushbu gipotetik testning yuqori ijobiy ijobiy ko'rsatkichga ega ekanligini va bu asemptomatik odamlarning umumiy populyatsiyasida kolorektal saratonni ishonchli tarzda aniqlay olmasligini ko'rsatadi (PPV = 10%).

Boshqa tomondan, ushbu gipotetik test saraton kasalligiga chalingan shaxslarning aniq aniqlanishini namoyish etadi (NPV = 99,5%). Shuning uchun asemptomatik kattalar bilan muntazam ravishda yo'g'on ichak ichak saratoni skriningi o'tkazilganda, salbiy natija bemor va shifokor uchun muhim ma'lumotlarni beradi, masalan, saraton kasalligini oshqozon-ichak simptomlari sababi deb hisoblash yoki yo'g'on ichak saratoni rivojlanishidan xavotirlangan bemorlarni tinchlantirish.

Klassifikatorni sezgirlik va o'ziga xoslik bilan o'lchash

Tasniflagichni o'qitishda, uning ish faoliyatini sezgirlik va o'ziga xoslikning yaxshi qabul qilingan ko'rsatkichlari yordamida o'lchashni istash mumkin. Klassifikatorni kasallikning tarqalishiga qarab tanga aylantiradigan tasodifiy tasniflagich bilan taqqoslash ibratli bo'lishi mumkin. Biror kishining kasallikka chalinish ehtimoli shunday deylik va bunday bo'lmasligi ehtimolligi . Faraz qilaylik, bizda tasodifiy tasniflagich bor, u bemorda xuddi shunday ehtimollik bilan kasallik borligini taxmin qiladi va u bir xil ehtimollik bilan emasligini taxmin qilmoqda .

Haqiqiy musbatning ehtimoli - bu bemorning kasallikka chalinish ehtimoli, tasodifiy tasniflagich buni to'g'ri taxmin qilish ehtimoli yoki . Shunga o'xshash mulohazalar bilan noto'g'ri salbiy ehtimollik . Yuqoridagi ta'riflardan ushbu klassifikatorning sezgirligi . Shunga o'xshash mulohazalar bilan biz aniqlikni quyidagicha hisoblashimiz mumkin .

Shunday qilib, o'lchov o'zi kasallik tarqalishidan mustaqil bo'lsa-da, ushbu tasodifiy klassifikatorning ishlashi kasallik tarqalishiga bog'liq. Tasniflagich ushbu tasodifiy klassifikatorga o'xshash ishlashi mumkin, ammo og'irroq tanga bilan (yuqori sezgirlik va o'ziga xoslik). Shunday qilib, ushbu choralarga kasallik tarqalishi ta'sir qilishi mumkin. Ishlashning alternativ o'lchovi bu Metyusning o'zaro bog'liqlik koeffitsienti, buning uchun har qanday tasodifiy klassifikator o'rtacha 0 ball oladi.

Ushbu kontseptsiyaning ikkilik bo'lmagan tasniflarga kengaytirilishi chalkashlik matritsasi.

Shuningdek qarang

Izohlar

  1. ^ Barcha tibbiy skrining testlarining afzalliklari va kamchiliklari mavjud. Klinik amaliyot bo'yicha ko'rsatmalar, masalan, kolorektal saratonni skrining qilish uchun ushbu xavf va foydalarni tasvirlab bering.[3][4]

Adabiyotlar

  1. ^ Statistik test uchun Mathworld maqolasi
  2. ^ Xar-Peled, S., Roth, D., Zimak, D. (2003) "Multiclass tasnifi va reytingi uchun cheklovlar tasnifi." In: Beker, B., Thrun, S., Obermayer, K. (Eds) 15-sonli asabni qayta ishlash tizimidagi yutuqlar: 2002 yilgi konferentsiya materiallari, MIT Press. ISBN  0-262-02550-7
  3. ^ Lin, Jennifer S.; Piper, Margaret A.; Perdu, Lesli A.; Rutter, Kerolin M.; Uebber, Yelizaveta M .; O'Konnor, Yelizaveta; Smit, Ning; Whitlock, Evelyn P. (21 iyun 2016). "Kolorektal saraton kasalligi skriningi". JAMA. 315 (23): 2576–2594. doi:10.1001 / jama.2016.3332. ISSN  0098-7484.
  4. ^ Benard, Florensiya; Barkun, Alan N .; Martel, Myriam; Renteln, Daniel fon (2018 yil 7-yanvar). "O'rtacha xavfli kattalar uchun kolorektal saratonni skrining qilish bo'yicha ko'rsatmalarni muntazam ravishda ko'rib chiqish: joriy global tavsiyalarni umumlashtirish". Jahon Gastroenterologiya jurnali. 24 (1): 124–138. doi:10.3748 / wjg.v24.i1.124. PMC  5757117. PMID  29358889.