Kesilgan teskari regressiya - Sliced inverse regression

Kesilgan teskari regressiya (SIR) uchun vosita o'lchovni kamaytirish sohasida ko'p o'zgaruvchan statistika.

Yilda statistika, regressiya tahlili javob o'zgaruvchisi o'rtasidagi munosabatni o'rganishning mashhur usuli y va uning tushuntirish o'zgaruvchisi , bu a p- o'lchovli vektor. Regressiya atamasiga kiradigan bir necha yondashuvlar mavjud. Masalan, parametrik usullar qatorli regressiyani o'z ichiga oladi; parametrik bo'lmagan texnikalar kiradi mahalliy tekislash.

Yuqori o'lchovli ma'lumotlar bilan (masalan p o'sadi), mahalliy tekislash usullarini qo'llash uchun zarur bo'lgan kuzatuvlar soni keskin o'sib boradi. O'lchamlarning sonini kamaytirish operatsiyani hisoblashga imkon beradi. O'lchovni kamaytirish ma'lumotlarning faqat eng muhim yo'nalishlarini ko'rsatishga qaratilgan. SIR teskari regressiya egri chizig'idan foydalanadi, o'lchovlarni kamaytirishning samarali yo'nalishlarini aniqlaydigan og'irlikdagi asosiy tarkibiy tahlillarni o'tkazish.

Ushbu maqola birinchi navbatda o'quvchini o'lchamlarni qisqartirish mavzusi va bu erda model yordamida qanday bajarilishini tanishtiradi. Keyinchalik teskari regressiya bo'yicha qisqacha sharh mavjud bo'lib, keyinchalik bu qismlarni birlashtiradi.

Model

Javob o'zgaruvchisi berilgan va (tasodifiy) vektor tushuntirish o'zgaruvchilari, SIR modeliga asoslangan

qayerda noma'lum proektsion vektorlar. noma'lum raqam (biz ma'lumotni kamaytirishga harakat qiladigan bo'shliqning o'lchovliligi) va, albatta, o'lchamni kamaytirishni xohlaganimizdek, . noma'lum funktsiya , bu faqat bog'liq dalillar va bilan xato va cheklangan dispersiya . Model ideal echimni tasvirlaydi, qaerda bog'liq faqat a orqali o'lchovli pastki bo'shliq; ya'ni izohlanadigan o'zgaruvchilar hajmini kamaytirish mumkin kichikroq raqamga hech qanday ma'lumot yo'qotmasdan.

Ning teng versiyasi bu: ning shartli taqsimoti berilgan bog'liq faqat orqali o'lchovli tasodifiy vektor . Ushbu qisqartirilgan vektor asl nusxasi kabi ma'lumotga ega deb taxmin qilinadi tushuntirishda .

Noma'lum deyiladi o'lchovlarni kamaytirishning samarali yo'nalishlari (EDR-ko'rsatmalar). Ushbu vektorlar tomonidan kengaytirilgan bo'shliq bo'shliqni kamaytirishning samarali o'lchamlari (EDR-bo'shliq).

Tegishli chiziqli algebra fon

Modelni tasavvur qilish uchun vektor bo'shliqlari bo'yicha qisqa sharhga e'tibor bering:

Vektorli bo'shliqning ta'rifi va ba'zi boshqa xususiyatlar uchun men maqolaga murojaat qilaman Chiziqli algebra va Gram-Shmidt ortogonalizatsiyasi yoki chiziqli algebra bo'yicha har qanday darslik va faqat modelni tushunish uchun eng muhim faktlarni eslatib o'ting.

EDR-bo'shliq bo'lgani kabi -O'lchovli subspace, biz subspace nima ekanligini bilishimiz kerak. Ning subspace kichik to'plam sifatida aniqlanadi , agar u buni ushlab tursa

Berilgan , keyin , ushbu vektorlarning barcha chiziqli birikmalarining to'plami chiziqli pastki bo'shliq deb ataladi va shuning uchun vektor maydoni. Ulardan biri vektorlarni aytadi oraliq . Ammo bo'shliqni qamrab oluvchi vektorlar noyob emas. Bu bizni asos tushunchasiga va vektor makonining o'lchamiga olib keladi:

To'plam vektor fazosining chiziqli mustaqil vektorlari deyiladi asos ning , agar u buni ushlab tursa

Ning o'lchamlari ichida chiziqli mustaqil vektorlarning maksimal soniga teng . To'plam ning chiziqli mustaqil vektorlari asosini tashkil etish . Vektor makonining o'lchami noyobdir, chunki asosning o'zi emas. Xuddi shu bo'shliqni bir nechta bazalar qamrab olishi mumkin, albatta, qaram vektorlar ham bo'shliqni qamrab oladi, ammo ikkinchisining chiziqli birikmalari faqat to'g'ri chiziqda yotgan vektorlar to'plamini keltirib chiqarishi mumkin. Biz qidirayotganimiz kabi o'lchovli subspace, biz topishga qiziqamiz ga teng chiziqli mustaqil vektorlar biz ma'lumotlarimizni loyihalashtirmoqchi bo'lgan o'lchovli pastki maydon.

O'lchovlilikning la'nati

Ma'lumotlarning hajmini kamaytirmoqchi bo'lganimiz sababi "o'lchovning la'nati "va, albatta, grafik maqsadlar uchun. O'lchovlilikning la'nati (matematik) bo'shliqqa qo'shimcha o'lchamlarni qo'shadigan hajmning tez o'sishi bilan bog'liq. Masalan, qo'llab-quvvatlashdan 100 ta kuzatuvni ko'rib chiqing , bu intervalni juda yaxshi qoplaydi va mos keladigan 100 ta kuzatuv bilan taqqoslanadi bo'shliqning ajratilgan nuqtalari bo'lgan o'lchov birligi gipersquare. Birinchi holda ma'lumotlarning asosiy xususiyatlari haqida xulosa chiqarish oson, ikkinchisida esa unday emas.

Teskari regressiya

Teskari regressiya egri chizig'ini hisoblash (IQ) izlash o'rniga anglatadi

  • , bu egri chiziq

biz hisoblaymiz

  • , bu ham egri chiziq , lekin iborat bir o'lchovli regressiyalar.

Teskari regressiya egri chizig'ining markazi joylashgan . Shuning uchun markazlashtirilgan teskari regressiya egri chizig'i

bu o'lchovli egri chiziq . Quyida biz ushbu markazlashtirilgan teskari regressiya egri chizig'ini ko'rib chiqamiz va uning a ga asoslanganligini ko'ramiz tomonidan kengaytirilgan o'lchovli pastki bo'shliq .

Ammo buning to'g'riligini ko'rishdan oldin, teskari regressiya egri chizig'i keyinchalik batafsilroq kiritiladigan SIR-Algoritm ichida qanday hisoblanganligini ko'rib chiqamiz. SIRning "kesilgan" qismi keladi. Teskari regressiya egri chizig'ini oralig'ini bo'lish orqali baholaymiz ichiga bir-birining ustiga chiqmaydigan intervallarni (bo'laklarni), keyin namunaviy vositalarni hisoblash uchun har bir tilimdan. Ushbu namunaviy vositalar IQ egri chizig'ining taxminiy bahosi sifatida ishlatiladi, deb belgilanadi . Dilimlarni aniqlashning bir necha yo'li mavjud, yoki har bir bo'lakda bir xil darajada ko'p kuzatuvlar bo'lishi mumkin yoki biz har bir tilim uchun sobit diapazonni belgilaymiz, shunda biz turli nisbatlarga ega bo'lamiz. har bir bo'lakka tushadigan.

Teskari regressiya va o'lchovni kamaytirish

Yuqorida aytib o'tilganidek, markazlashtirilgan teskari regressiya egri chizig'i a ga to'g'ri keladi tomonidan kengaytirilgan o'lchovli pastki bo'shliq (va shuning uchun ham biz taxmin qiladigan taxminiy baho). Bu bizning Modelimiz va teskari regressiya o'rtasidagi bog'liqlik. Dizayn taqsimotida faqat bitta shart bo'lishi kerak bo'lgan holda, biz buni haqiqat deb bilamiz. Bu shart quyidagicha:

Ya'ni. shartli kutish chiziqli , ya'ni ba'zi bir doimiylar uchun . Ning taqsimlanganda bu shart bajariladi elliptik nosimmetrikdir (masalan, normal taqsimot). Bu juda kuchli talabga o'xshaydi. Bu, masalan, ma'lumotlarning taqsimlanishini sinchkovlik bilan tekshirishga yordam berishi mumkin, shunda tahlildan oldin haddan tashqari ko'rsatkichlarni olib tashlash yoki klasterlarni ajratish mumkin.

Ushbu shartni hisobga olgan holda va , haqiqatan ham markazlashtirilgan teskari regressiya egri chizig'i tomonidan kengaytirilgan chiziqli subspace-da joylashgan , qayerda . Dalil Duan va Li tomonidan taqdim etilgan Amerika Statistik Uyushmasi jurnali (1991).

EDR yo'nalishlarini baholash

Barcha nazariy xususiyatlarni ko'rib chiqqandan so'ng, bizning maqsadimiz EDR yo'nalishlarini baholashdir. Shu maqsadda biz namunaviy vositalar uchun (vaznli) asosiy komponent tahlilini o'tkazamiz , standartlashtirilganidan keyin ga . Yuqoridagi teoremaga mos keladigan IQ-egri chiziq bo'shliqda yotadi , qayerda . (Oldindan kiritilgan terminologiya tufayli deyiladi standartlashtirilgan samarali o'lchamlarni kamaytirish yo'nalishlari.) Natijada, kovaryans matritsasi ga ortogonal bo'lgan har qanday yo'nalishda degeneratsiya qilinadi . Shuning uchun, o'z vektorlari bilan bog'liq eng katta shaxsiy qiymatlar - standartlashtirilgan EDR yo'nalishlari.

PCA-ga qaytish. Ya'ni, biz taxminiy hisoblaymiz :

va o'z qiymatlarini aniqlash va o'z vektorlari ning , bu standartlashtirilgan EDR yo'nalishlari. (Bu haqda ko'proq ma'lumot olish uchun keyingi qismga qarang: Algoritm.) Shuni esda tutingki, kompyuterni o'zgartirishning asosiy g'oyasi dispersiyani maksimal darajaga ko'taradigan eng ma'lumotli proektsiyalarni topishdir!

E'tibor bering, ba'zi holatlarda SIR EDR-ko'rsatmalarini topa olmaydi. Shartli kovaryansni ko'rib chiqish orqali ushbu qiyinchilikni engib o'tish mumkin . Bu tamoyil avvalgidek qolmoqda, ammo IQ egri chizig'ini shartli kutish o'rniga shartli kovaryans bilan tekshiradi. Qo'shimcha ma'lumot va SIR ishlamay qoladigan misol uchun Härdle and Simar (2003) ga qarang.

Algoritm

SIR orqali EDR-yo'nalishlarini taxmin qilish algoritmi quyidagicha. U darslikdan olingan Amaliy ko'p o'zgaruvchan statistik tahlil (Härdle va Simar 2003)

1. Ruxsat bering ning kovaryans matritsasi bo'ling . Standartlashtirish ga

(Shuning uchun biz qayta yozishimiz mumkin kabi

qayerda Standartlashtirilgan o'zgarmaydigan Z uchun uni ushlab turadi va .)

2. Oralig'ini ajrating ichiga bir-biriga yopishmaydigan bo'laklar har bir tilim ichidagi kuzatuvlar soni va ushbu tilim uchun indikator funktsiyasi:

3. Ning o'rtacha qiymatini hisoblang hamma tilim ustida, bu taxminiy taxmin teskari regressiya egri chizig’ining :

4. Uchun smetani hisoblang :

5. O'ziga xos qiymatlarni aniqlang va o'z vektorlari ning , bu standartlashtirilgan EDR yo'nalishlari.

6. Standartlashtirilgan EDR yo'nalishlarini asl ko'lamiga o'zgartiring. EDR yo'nalishlari bo'yicha taxminlar quyidagicha berilgan:

(ular ortogonal bo'lishi shart emas)

Masalan, Xardle va Simarning (2003) kitobiga qarang.

Adabiyotlar

  • Li, K-C. (1991) "O'lchamlarni kamaytirish uchun kesilgan teskari regressiya", Amerika Statistik Uyushmasi jurnali, 86, 316–327 Jstor
  • Kuk, RD va Sanford Vaysberg, S. (1991) "O'lchamlarni kamaytirish uchun kesilgan teskari regressiya: izoh", Amerika Statistik Uyushmasi jurnali, 86, 328–332 Jstor
  • Xardl, V. va Simar, L. (2003) Amaliy ko'p o'zgaruvchan statistik tahlil, Springer Verlag. ISBN  3-540-03079-4
  • Kurzfassung zur Vorlesung Mathematik II im Sommersemester 2005, A. Brandt

Tashqi havolalar