Tsenzura (statistika) - Censoring (statistics)

Yilda statistika, tsenzura sharti, unda qiymat a o'lchov yoki kuzatuv faqat qisman ma'lum.

Masalan, preparatning ta'sirini o'lchash uchun tadqiqot o'tkazildi o'lim darajasi. Bunday tadqiqotda ma'lum bo'lishicha, shaxsning o'lim yoshi kamida 75 yil (lekin ko'proq bo'lishi mumkin). Bunday holat, agar shaxs 75 yoshida o'qishdan voz kechsa yoki shaxs hozirda 75 yoshida tirik bo'lsa, yuzaga kelishi mumkin.

Tsenzura, qiymat a doirasidan tashqarida bo'lganda ham paydo bo'ladi o'lchov vositasi. Masalan, hammom tarozisi faqat 140 kilogrammgacha (310 funt) teng bo'lishi mumkin. Agar tarozi yordamida 160 kg (350 lb) vazn tortilgan bo'lsa, kuzatuvchi faqat uning vazni kamida 140 kilogramm (310 lb) ekanligini bilar edi.

Ba'zi bir o'zgaruvchilarning kuzatilgan qiymati qisman ma'lum bo'lgan tsenzura qilingan ma'lumotlar muammosi, bilan bog'liq etishmayotgan ma'lumotlar, bu erda ba'zi bir o'zgaruvchining kuzatilgan qiymati noma'lum.

Tsenzurani tegishli g'oya bilan aralashtirib yubormaslik kerak qisqartirish. Tsenzuradan so'ng, kuzatuvlar aniq qiymatni bilishga yoki qiymat $ an $ ichida ekanligini bilishga olib keladi oraliq. Qisqartirish bilan kuzatuvlar hech qachon ma'lum bir diapazondan tashqaridagi qiymatlarni keltirib chiqarmaydi: intervaldan tashqaridagi populyatsiyada qiymatlar hech qachon ko'rilmaydi yoki ko'rilgan bo'lsa yozilmaydi. E'tibor bering, statistikada qisqartirish bir xil emas yaxlitlash.

Turlari

  • Chap senzura - ma'lumotlar nuqtasi ma'lum bir qiymatdan pastroq, ammo qancha ekanligi noma'lum.
  • Intervalli senzura - ma'lumotlar nuqtasi ikki qiymat oralig'ida joylashgan.
  • To'g'ri senzura - ma'lumotlar nuqtasi ma'lum bir qiymatdan yuqori, ammo qancha ekanligi noma'lum.
  • Tsenzuraning I turi agar eksperimentda belgilangan miqdordagi predmetlar yoki narsalar mavjud bo'lsa va eksperimentni oldindan belgilangan vaqtda to'xtatib tursa, unda qolgan barcha mavzular o'ng tsenzuraga uchraydi.
  • Tsenzuraning II turi agar tajribada belgilangan miqdordagi predmetlar yoki narsalar mavjud bo'lsa va oldindan belgilangan raqam muvaffaqiyatsiz bo'lganligi kuzatilsa, tajribani to'xtatsa; qolgan mavzular keyin o'ng tsenzuradan o'tkaziladi.
  • Tasodifiy (yoki informatsion bo'lmagan) tsenzura har bir mavzu tsenzura vaqtiga ega bo'lganda statistik jihatdan mustaqil ularning ishlamay qolgan vaqtlari. Kuzatilgan qiymat - bu tsenzuraning minimal darajasi va ishlamay qolish vaqti; muvaffaqiyatsizlik vaqti ularning tsenzurasi vaqtidan kattaroq bo'lgan sub'ektlar o'ng tsenzuraga ega.

Qiymatni kuzatish yoki tekshirishni talab qilishda intervalli tsenzura paydo bo'lishi mumkin. Chap va o'ng tsenzura - bu intervalli tsenzuraning maxsus holatlari, intervalning boshlanishi mos ravishda nolga yoki oxiri cheksizlikka to'g'ri keladi.

Baholash usullari chap tsenzura qilingan ma'lumotlardan foydalanish uchun har xil bo'ladi va barcha ma'lumotlar to'plamlari uchun baholashning barcha usullari qo'llanilishi yoki eng ishonchli bo'lishi mumkin emas.[1]

Vaqt oralig'i ma'lumotlari bilan keng tarqalgan noto'g'ri tushuncha quyidagicha sinfga kiradi chapda tsenzuraga uchragan boshlanish vaqti noma'lum bo'lgan intervallar. Bunday hollarda bizda vaqt chegarasi past bo'ladi oraliq, shuning uchun ma'lumotlar o'ng tsenzurasi (yo'qolgan boshlang'ich nuqtasi vaqt oralig'i sifatida qaralganda ma'lum intervalning chap tomonida bo'lishiga qaramay!).

Tahlil

Tsenzuraga olingan ma'lumotlarni boshqarish uchun maxsus texnikadan foydalanish mumkin. Muayyan nosozlik vaqtlari bo'lgan testlar haqiqiy nosozliklar sifatida kodlanadi; tsenzura qilingan ma'lumotlar tsenzuraning turi va ma'lum bo'lgan interval yoki limit uchun kodlanadi. Maxsus dasturiy ta'minot dasturlari (ko'pincha ishonchlilik yo'naltirilgan) a o'tkazishi mumkin maksimal ehtimollikni taxmin qilish xulosa statistikasi, ishonch oralig'i va boshqalar.

Epidemiologiya

Tsenzuraga uchragan ma'lumotlar bilan bog'liq statistik muammoni tahlil qilishning dastlabki urinishlaridan biri bu edi Daniel Bernulli ning 1766-yilgi tahlili chechak samaradorligini namoyish qilish uchun kasallanish va o'lim ko'rsatkichlari emlash.[2] Dan foydalanish uchun dastlabki qog'oz Kaplan-Meier tahminchisi senzura qilingan xarajatlarni taxmin qilish uchun Kuesenberry va boshq. (1989),[3] ammo bu yondashuv Lin va boshq tomonidan yaroqsiz deb topildi.[4] agar barcha bemorlar vaqt o'tishi bilan umumiy deterministik stavka funktsiyasi bilan xarajatlarni to'plamagan bo'lsalar, ular Lin taxminiy nomi bilan tanilgan muqobil baholash texnikasini taklif qilishdi.[5]

Amaliyot sinovi

Beshga misol takrorlash to'rtta muvaffaqiyatsizlikka olib keladigan sinovlar va bitta to'xtatib qo'yilgan vaqt.

Ishonchlilik sinov ko'pincha biron bir element bo'yicha sinovni o'tkazishdan iborat (belgilangan sharoitlarda), muvaffaqiyatsizlik yuzaga kelishi uchun vaqtni belgilaydi.

  • Ba'zida nosozlik rejalashtirilgan va kutilgan, ammo sodir bo'lmaydi: operatorning xatosi, uskunaning nosozligi, sinov anomaliyasi va boshqalar. Sinov natijasi istalgan ishlamay qolmadi, lekin ishlatilishi mumkin (va ishlatilishi kerak) tugatish. Tsenzuraga uchragan ma'lumotlardan foydalanish beixtiyor, ammo zarurdir.
  • Ba'zida muhandislar sinov dasturini rejalashtirishadi, shunda ma'lum bir vaqt chegarasi yoki muvaffaqiyatsizliklar sonidan so'ng barcha boshqa sinovlar bekor qilinadi. Ushbu to'xtatilgan vaqtlar to'g'ri tsenzuraga olingan ma'lumotlar sifatida ko'rib chiqiladi. Tsenzurali ma'lumotlardan foydalanish qasddan qilingan.

Takroriy testlardan olingan ma'lumotlarni tahlil qilish ham muvaffaqiyatsizlikka uchragan narsalar uchun muvaffaqiyatsizlikka qadar vaqtni, ham muvaffaqiyatsiz bo'lganlar uchun testni tugatish vaqtini o'z ichiga oladi.

Tsenzurali regressiya

Uchun oldingi model senzurali regressiya, Tobit modeli tomonidan taklif qilingan Jeyms Tobin 1958 yilda.[6]

Ehtimollik

The ehtimollik taxmin qilingan modeldagi parametrlarning funktsiyasi sifatida qaraladigan, kuzatilgan narsalarning ehtimollik yoki ehtimollik zichligi. Deylik, bizni yashash muddati qiziqtiradi, , lekin biz kuzatmayapmiz Barcha uchun . Buning o'rniga biz kuzatamiz

, bilan va agar aslida kuzatiladi va
, bilan va agar biz biladigan narsa shu bo'lsa dan uzunroq .

Qachon deyiladi tsenzura vaqti.[7]

Agar senzura vaqtlari ma'lum bo'lgan doimiy bo'lsa, ehtimol bu shundaydir

qayerda = baholangan ehtimollik zichligi funktsiyasi ,

va = ehtimoli dan katta , deb nomlangan omon qolish funktsiyasi.

Ni belgilash orqali buni soddalashtirish mumkin xavf funktsiyasi, o'limning oniy kuchi, kabi

shunday

.

Keyin

.

Uchun eksponensial taqsimot, bu yanada sodda bo'ladi, chunki xavf darajasi, , doimiy va . Keyin:

,

qayerda .

Shundan biz osonlikcha hisoblaymiz , maksimal ehtimollik tahmini (MLE) ning , quyidagicha:

.

Keyin

.

Biz buni 0 ga o'rnatdik va hal qilamiz olish uchun; olmoq:

.

Teng ravishda muvaffaqiyatsizlikka qadar bo'lgan vaqt bu:

.

Bu standart MLE-dan farq qiladi eksponensial taqsimot har qanday tsenzura qilingan kuzatuvlar faqat raqamda ko'rib chiqiladi.

Shuningdek qarang

Adabiyotlar

  1. ^ Helsel, D. (2010). "Hech narsaning yonida juda ko'p narsa: noaniqliklarni fanga kiritish". Mehnat gigienasi yilnomalari. 54 (3): 257–262. doi:10.1093 / annhyg / mep092. PMID  20032004.
  2. ^ Bernulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Mem. Matematika. Phy. Akad. Roy. Ilmiy ish. Parij, Bredli (1971) 21 va Blower (2004) da qayta nashr etilgan
  3. ^ Kuesenberry, C. P., Jr.; va boshq. (1989). "Qabul qilingan immunitet tanqisligi sindromi bo'lgan bemorlar orasida kasalxonaga yotqizilishning omon qolish tahlili". Amerika sog'liqni saqlash jurnali. 79 (12): 1643–1647. doi:10.2105 / AJPH.79.12.1643. PMC  1349769. PMID  2817192.
  4. ^ Lin, D. Y .; va boshq. (1997). "Tibbiy xarajatlarni to'liqsiz kuzatuv ma'lumotlaridan hisoblash". Biometriya. 53 (2): 419–434. doi:10.2307/2533947. JSTOR  2533947. PMID  9192444.
  5. ^ Vijeysundera, X.K.; va boshq. (2012). "Tsenzurali ma'lumotlar bilan sog'liqni saqlash xarajatlarini hisoblash texnikasi: sog'liqni saqlash xizmatlari tadqiqotchisi uchun umumiy nuqtai". ClinicoIqtisodiyot va natijalarni tadqiq qilish. 4: 145–155. doi:10.2147 / CEOR.S31552. PMC  3377439. PMID  22719214.
  6. ^ Tobin, Jeyms (1958). "Cheklangan bog'liq o'zgaruvchilar uchun munosabatlarni baholash" (PDF). Ekonometrika. 26 (1): 24–36. doi:10.2307/1907382. JSTOR  1907382.
  7. ^ Lu Tian, Imkoniyatni qurish, parametrlarni saqlab qolish taqsimoti uchun xulosa (PDF), Vikidata  Q98961801.

Qo'shimcha o'qish

Tashqi havolalar

  • "Muhandislik statistikasi bo'yicha qo'llanma", NIST / SEMATEK, [1]