Aralashmaning tarqalishi - Mixture distribution

Yilda ehtimollik va statistika, a aralashmaning tarqalishi bo'ladi ehtimollik taqsimoti a tasodifiy o'zgaruvchi Bu boshqa tasodifiy o'zgaruvchilar to'plamidan quyidagicha hosil bo'ladi: birinchi navbatda tasodifiy o'zgaruvchi to'plamdan tasodifan tanlovning berilgan ehtimollariga muvofiq tanlanadi va keyin tanlangan tasodifiy o'zgaruvchining qiymati amalga oshiriladi. Asosiy tasodifiy o'zgaruvchilar tasodifiy haqiqiy sonlar bo'lishi mumkin yoki ular bo'lishi mumkin tasodifiy vektorlar (har biri bir xil o'lchamga ega), bu holda aralashmaning taqsimlanishi a ko'p o'zgaruvchan tarqatish.

Asosiy tasodifiy o'zgaruvchilarning har biri bo'lgan holatlarda davomiy, natija o'zgaruvchisi ham doimiy bo'ladi va uning ehtimollik zichligi funktsiyasi ba'zan a deb nomlanadi aralashmaning zichligi. The kümülatif taqsimlash funktsiyasi (va ehtimollik zichligi funktsiyasi agar mavjud bo'lsa) a shaklida ifodalanishi mumkin qavariq birikma (ya'ni og'irlik yig'indisi, manfiy bo'lmagan og'irliklari bilan 1 ga teng) boshqa taqsimlash funktsiyalari va zichlik funktsiyalari. Aralashma taqsimotini hosil qilish uchun birlashtirilgan individual taqsimotlarga deyiladi aralashmaning tarkibiy qismlariva har bir komponent bilan bog'liq bo'lgan ehtimolliklar (yoki og'irliklar) ga deyiladi aralashmaning og'irliklari. Aralashmaning tarqalishidagi tarkibiy qismlarning soni cheklangan bo'lishi bilan cheklanadi, ammo ba'zi hollarda ularning tarkibiy qismlari bo'lishi mumkin nihoyatda cheksiz. Ko'proq umumiy holatlar (ya'ni sanoqsiz komponentlar taqsimoti to'plami), shuningdek hisoblanadigan holat, sarlavha ostida ko'rib chiqiladi aralash taqsimotlar.

A ni ajratib ko'rsatish kerak tasodifiy o'zgaruvchi uning taqsimlash funktsiyasi yoki zichligi tarkibiy qismlar yig'indisidan iborat (ya'ni aralashma taqsimoti) va qiymati ikki yoki undan ortiq asosdagi tasodifiy o'zgaruvchilar qiymatlari yig'indisi bo'lgan tasodifiy o'zgaruvchi, bu holda taqsimot konversiya operator. Masalan, ikkitaning yig'indisi birgalikda taqsimlanadi tasodifiy o'zgaruvchilar, ularning har biri turli xil vositalarga ega, baribir normal taqsimotga ega bo'ladi. Boshqa tomondan, turli xil vositalar bilan ikkita normal taqsimotning aralashmasi sifatida yaratilgan aralash zichligi, ikkita vosita bir-biridan etarlicha uzoq bo'lishi sharti bilan ikkita tepalikka ega bo'ladi va bu taqsimotning normal taqsimotdan tubdan farq qilishini ko'rsatadi.

Aralashmalarning taqsimlanishi adabiyotda ko'plab kontekstlarda paydo bo'ladi va tabiiy ravishda a statistik aholi ikki yoki undan ko'pini o'z ichiga oladi subpopulyatsiyalar. Ular ba'zida odatiy bo'lmagan taqsimotlarni ifodalash vositasi sifatida ham foydalaniladi. Bilan bog'liq ma'lumotlarni tahlil qilish statistik modellar aralashmasi tarqatilishini o'z ichiga olgan sarlavha ostida muhokama qilinadi aralash modellari Ushbu maqolada aralashmaning taqsimlanishining oddiy ehtimollik va statistik xususiyatlari va ularning asosiy taqsimotlarning xususiyatlari bilan bog'liqligi haqida fikr yuritilgan.

Sonli va hisoblanadigan aralashmalar

Uchta normal taqsimot aralashmasining zichligi (m = 5, 10, 15, ph = 2) teng og'irliklarga ega. Har bir komponent og'irlik zichligi sifatida ko'rsatilgan (har biri 1/3 ga teng)

Ehtimollik zichligi funktsiyalarining cheklangan to'plami berilgan p1(x), …, pn(x), yoki tegishli kümülatif tarqatish funktsiyalari P1(x), …, Pn(x) va og'irliklar w1, …, wn shu kabi wmen ≥ 0 va wmen = 1, aralashmaning taqsimlanishi zichlikni yozish orqali ifodalanishi mumkin, fyoki tarqatish funktsiyasi, F, yig'indisi sifatida (har ikkala holatda ham konveks kombinatsiyasi):

Ushbu turdagi aralash, cheklangan yig'indisi bo'lib, a deb ataladi cheklangan aralash, dasturlarda esa "aralashma zichligi" uchun malakasiz ma'lumot odatda cheklangan aralashmani bildiradi. Komponentlarning son-sanoqsiz to'plami rasmiy ravishda ruxsat berish bilan qoplanadi .

Hisoblab bo'lmaydigan aralashmalar

Komponentlarni taqsimlash to'plami qaerda sanoqsiz, natija ko'pincha a deb nomlanadi birikma ehtimoli taqsimoti. Bunday taqsimotlarning konstruktsiyasi aralashmaning taqsimlanishiga rasmiy o'xshashlikka ega bo'lib, cheklanmagan aralashmalar uchun ishlatiladigan cheklangan yig'indilar o'rnini cheksiz yig'indilar yoki integrallar egallaydi.

Ehtimollar zichligi funktsiyasini ko'rib chiqing p(x;a) o'zgaruvchi uchun x, tomonidan parametrlangan a. Ya'ni, har bir qiymati uchun a ba'zi to'plamda A, p(x;a) - nisbatan zichlik funktsiyasi x. Ehtimollik zichligi funktsiyasi berilgan w (bu degani w manfiy emas va funktsiyani 1) bilan birlashtiradi

yana uchun ehtimollik zichligi funktsiyasi x. Kümülatif taqsimlash funktsiyasi uchun ham xuddi shunday integral yozilishi mumkin. E'tibor bering, formulalar zichlik bo'lsa, cheklangan yoki cheksiz aralashmaning holatiga kamayadi w a bo'lishi mumkin umumlashtirilgan funktsiya a ning biriktiruvchi taqsimlash funktsiyasining "hosilasini" ifodalaydi diskret tarqatish.

Parametrik oila tarkibidagi aralashmalar

Aralash komponentlari ko'pincha o'zboshimchalik bilan ehtimollik taqsimoti emas, aksincha a a'zolari hisoblanadi parametrli oila (normal taqsimot kabi), parametr yoki parametr uchun turli xil qiymatlarga ega. Bunday hollarda, uning mavjudligini taxmin qilib, zichlik quyidagicha yig'indisi shaklida yozilishi mumkin:

bitta parametr uchun yoki

ikkita parametr uchun va boshqalar.

Xususiyatlari

Qavariqlik

Umumiy chiziqli birikma ehtimollik zichligi funktsiyalari ehtimollik zichligi bo'lishi shart emas, chunki u salbiy bo'lishi mumkin yoki u 1dan boshqasiga qo'shilishi mumkin. Ammo qavariq birikma ehtimollik zichligi funktsiyalari ushbu ikkala xususiyatni ham saqlaydi (manfiy bo'lmagan va 1 ga integrallangan) va shu bilan aralashmaning zichligi o'zlari ehtimollik zichligi funktsiyalaridir.

Lahzalar

Ruxsat bering X1, ..., Xn dan tasodifiy o'zgaruvchilarni belgilang n komponentlar taqsimoti va ruxsat bering X aralashmaning tarqalishidan tasodifiy o'zgaruvchini belgilang. Keyin, har qanday funktsiya uchun H(·) Buning uchun mavjud bo'lib, komponentning zichligini nazarda tutadi pmen(x) mavjud,

The jth moment nolga teng (ya'ni tanlash) H(x) = xj) shunchaki ning o'rtacha tortilgan ko'rsatkichidir jkomponentlarning th daqiqalari. O'rtacha qiymat haqida bir lahzalar H(x) = (x - m)j binomial kengayishni o'z ichiga oladi:[1]

qayerda mmen ning o'rtacha qiymatini bildiradi menth komponent.

Bir o'lchovli taqsimotlarni og'irliklar bilan aralashtirish holatida wmen, degan ma'noni anglatadi mmen va farqlar σmen2, umumiy o'rtacha va dispersiya quyidagicha bo'ladi:

Ushbu munosabatlar aralashmaning taqsimlanish potentsialini ta'kidlaydi, masalan, ahamiyatsiz bo'lmagan yuqori darajadagi momentlarni aks ettiradi qiyshiqlik va kurtoz (semiz quyruq ) va ko'p modallik, hatto tarkibiy qismlarning o'zida bunday xususiyatlar bo'lmagan taqdirda ham. Marron va Uend (1992) ushbu ramkaning moslashuvchanligi to'g'risida illyustratsion hisobot berishdi.[2]

Rejimlar

Degan savol multimodallik ning aralashmalari kabi ba'zi holatlar uchun oddiy eksponent taqsimotlar: bunday aralashmalarning barchasi unimodal.[3] Ammo, ning aralashmalari uchun normal taqsimotlar, bu juda murakkab. Ko'p o'zgaruvchan normal aralashmaning rejimlari sonining shartlari Ray & Lindsay tomonidan o'rganilgan[4] avvalgi ishni bir o'zgaruvchiga uzaytirish [5][6] va ko'p o'zgaruvchan tarqatish (Carreira-Perpinan va Williams, 2003 y.)[7]).

Bu erda an rejimlarini baholash muammosi n a tarkibidagi aralashma D. o'lchovli bo'shliq a-dagi muhim nuqtalarni (mahalliy minima, maksimal va egar nuqtalarini) aniqlashga kamayadi ko'p qirrali tepalik chizig'i funktsiyasi tasviri bo'lgan tepalik yuzasi deb ataladi

qayerda a ga tegishli n − 1 o'lchovli sodda birlikva ΣmenRD. × D., mmenRD. ning kovaryansiga va o'rtacha qiymatiga mos keladi menth komponent. Rey va Lindsay[4] qaysi holatni ko'rib chiqing n − 1 < D. aralashma rejimlari va undagi rejimlarning yakka muvofiqligini ko'rsatish balandlik funktsiyasi h(a) = q(x *(a))Shunday qilib, rejimlarni echish orqali aniqlash mumkin munosabat bilan a va qiymatni aniqlash x *(a).

Grafik vositalar yordamida potentsial ko'p modallik n = {2, 3} aralashmalar namoyish etildi; xususan, rejimlarning soni oshib ketishi mumkinligi ko'rsatilgan n va rejimlar komponent vositalariga to'g'ri kelmasligi mumkin. Ikkala komponent uchun ular tahlilning grafik vositasini ishlab chiqishadi, buning o'rniga yuqorida aytib o'tilgan differentsialni echishdi w1 va echimlarni funktsiya sifatida ifodalash Π (a), a ∈ [0, 1] shuning uchun berilgan qiymat uchun rejimlarning soni va joylashuvi w1 chiziqdagi grafikning kesishish soniga to'g'ri keladi Π (a) = w1. Bu o'z navbatida grafik tebranishlar soni va shuning uchun ularning echimlari bilan bog'liq bo'lishi mumkin ikki komponent uchun aniq echimga olib keladi gomosedastik tomonidan berilgan aralash

qayerda dM(m1, m2, Σ) = (m2m1)TΣ−1(m2m1) bo'ladi Mahalanobis masofasi.

Yuqoridagilar kvadratik ekan, shundan kelib chiqadiki, bu holda o'lchov yoki vazndan qat'iy nazar eng ko'p ikkita rejim mavjud.

Misollar

Ikki oddiy taqsimot

Oddiy misollarni ikkita normal taqsimot aralashmasi bilan keltirish mumkin. (Qarang Multimodal taqsimot # Ikki normal taqsimotning aralashmasi batafsil ma'lumot uchun.)

Ikkala normal taqsimotning bir xil standart og'ishi va har xil vositalari bilan teng (50/50) aralashmasi berilgan (gomosedastik ), umumiy taqsimot past bo'ladi kurtoz bitta oddiy taqsimotga nisbatan - subpopulyatsiyalarning vositalari umumiy taqsimotning yelkasiga tushadi. Agar etarlicha ajratilgan bo'lsa, ya'ni ikki marta (umumiy) standart og'ish, shuning uchun bular a bimodal taqsimot, aks holda u shunchaki keng cho'qqiga ega.[8] Umumiy populyatsiyaning o'zgarishi, shuningdek, ikkita subpopulyatsiyaning (turli xil vositalardan tarqalishi sababli) o'zgarishiga qaraganda ko'proq bo'ladi va shuning uchun eksponatlar overdispersion o'zgaruvchan o'zgaruvchan normal taqsimotga nisbatan umumiy populyatsiyaning o'zgarishiga teng bo'lgan o'zgarishi bilan normal taqsimotga nisbatan u haddan tashqari buzilmaydi.

Shu bilan bir qatorda, o'rtacha bir xil va turli xil standart og'ishlarga ega bo'lgan ikkita subpopulyatsiyani hisobga olgan holda, umumiy populyatsiya yuqori kurtozni namoyon qiladi, bu esa bitta taqsimotga qaraganda keskin tepalik va og'irroq quyruqlarga (va shunga mos ravishda sayoz yelkalarga) ega bo'ladi.

Normal va Koshi taqsimoti

Quyidagi misol Xempeldan olingan,[9] kim kredit beradi Jon Tukey.

Bilan belgilangan aralashmaning taqsimlanishini ko'rib chiqing

F(x)   =   (1 − 10−10) (standart normal ) + l0−10 (standart Koshi ).

O'rtacha i.i.d. dan kuzatuvlar F(x) haddan tashqari katta namunalardan tashqari, "odatdagidek" o'zini tutadi, ammo o'rtacha bo'lsa ham F(x) hatto mavjud emas.

Ilovalar

Aralash zichligi - bu oddiyroq zichlik (aralashmaning tarkibiy qismlari) jihatidan ifodalanadigan murakkab zichlik va ikkalasi ham ishlatiladi, chunki ular ma'lum ma'lumotlar to'plamlari uchun yaxshi modelni taqdim etadi (bu erda ma'lumotlarning turli xil to'plamlari turli xil xususiyatlarni namoyish etadi va eng yaxshi alohida modellashtirilishi mumkin) va chunki ular matematik jihatdan ko'proq harakatga keltirilishi mumkin, chunki aralashmaning alohida tarkibiy qismlarini aralashmaning umumiy zichligiga qaraganda osonroq o'rganish mumkin.

Aralashmaning zichligi yordamida modellashtirish mumkin statistik aholi bilan subpopulyatsiyalar, bu erda aralashmaning tarkibiy qismlari subpopulyatsiyalarning zichligi va og'irliklari har bir subpopulyatsiyaning umumiy populyatsiyadagi nisbati.

Aralashmaning zichligi ham modellashtirish uchun ishlatilishi mumkin eksperimental xato yoki ifloslanish - ko'pchilik namunalar kerakli hodisani o'lchaydi, deb taxmin qiladi

Hech qanday xatoga yo'l qo'ymaydigan parametrli statistika ko'pincha bunday aralashmaning zichligi bo'yicha ishlamay qoladi - masalan, odatiylikni qabul qiladigan statistika ko'pincha bir nechta hattoki halokatli ravishda ishlamaydi chetga chiquvchilar - va buning o'rniga bitta foydalanadi ishonchli statistika.

Yilda meta-tahlil alohida tadqiqotlar, heterojenlikni o'rganish natijalarni taqsimlanishini aralash taqsimotiga olib keladi va olib keladi overdispersion bashorat qilingan xatoga nisbatan natijalar. Masalan, a statistik so'rov, xato chegarasi (namuna hajmi bo'yicha aniqlanadi) bashorat qiladi namuna olish xatosi va natijada takroriy tadqiqotlar natijalarining tarqalishi. Tadqiqotning bir xilligi (tadqiqotlar boshqacha) namuna olish tarafkashligi ) dispersiyani xato chegarasiga nisbatan oshiradi.

Shuningdek qarang

Aralash

Ierarxik modellar

Izohlar

  1. ^ Frühvirt-Shnatter (2006, Ch.1.2.4)
  2. ^ Marron, J. S .; Wand, M. P. (1992). "Aniq o'rtacha kvadratik xato". Statistika yilnomalari. 20 (2): 712–736. doi:10.1214 / aos / 1176348653., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ Frühvirt-Shnatter (2006, Ch.1)
  4. ^ a b Rey, R .; Lindsay, B. (2005), "Ko'p o'zgaruvchan normal aralashmalar topografiyasi", Statistika yilnomalari, 33 (5): 2042–2065, arXiv:matematik / 0602238, doi:10.1214/009053605000000417
  5. ^ Robertson CA, Fryer JG (1969) Oddiy aralashmalarning ba'zi tavsiflovchi xususiyatlari. Skand Aktuarietidskr 137–146
  6. ^ Behboodian, J (1970). "Ikki normal taqsimot aralashmasi rejimlari to'g'risida". Texnometriya. 12: 131–139. doi:10.2307/1267357. JSTOR  1267357.
  7. ^ http://faculty2.ucmerced.edu/mcarreira-perpinan/papers/EDI-INF-RR-0159.pdf
  8. ^ Shilling, Mark F.; Uotkins, Enn E.; Uotkins, Uilyam (2002). "Insonning bo'yi bimodalmi?". Amerika statistikasi. 56 (3): 223–229. doi:10.1198/00031300265.
  9. ^ Xempel, Frank (1998), "Statistika juda qiyinmi?", Kanada statistika jurnali, 26: 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503

Adabiyotlar

  • Frühvirt-Shnatter, Silviya (2006), Sonli aralash va Markovni almashtirish modellari, Springer, ISBN  978-1-4419-2194-9
  • Lindsay, Bryus G. (1995), Aralashma modellari: nazariya, geometriya va qo'llanilishi, Ehtimollik va statistika bo'yicha NSF-CBMS mintaqaviy konferentsiyalar seriyasi, 5, Xeyvord, Kaliforniya, AQSh: Matematik statistika instituti, ISBN  0-940600-32-3, JSTOR  4153184
  • Zeydel, Uilfrid (2010), "Aralashma modellari", Lovrikda, M. (tahr.), Xalqaro statistika fanlari entsiklopediyasi, Heidelberg: Springer, 827–829-betlar, arXiv:0909.0389, doi:10.1007/978-3-642-04898-2, ISBN  978-3-642-04898-2