Statistik ma'lumotlar turi - Statistical data type

Yilda statistika, individual guruhlar ma'lumotlar ballar har qanday turiga tegishli deb tasniflanishi mumkin statistik ma'lumotlar turlari, masalan. toifali ("qizil", "ko'k", "yashil"), haqiqiy raqam (1.68, -5, 1.7e + 6), g'alati raqam (1,3,5) va boshqalar. Ma'lumotlar turi o'zgaruvchining semantik tarkibining asosiy tarkibiy qismidir va qaysi turlarini boshqaradi ehtimollik taqsimoti mantiqan o'zgaruvchini, o'zgaruvchiga ruxsat berilgan operatsiyalarni, turini tavsiflash uchun ishlatilishi mumkin regressiya tahlili o'zgaruvchini taxmin qilish uchun ishlatiladi va hokazo. Ma'lumotlar turi tushunchasi o'lchov darajasi, lekin aniqroq: Masalan, ma'lumotlarni hisoblash boshqa taqsimotni talab qiladi (masalan, a Poissonning tarqalishi yoki binomial taqsimot ) manfiy emas haqiqiy qadrli ma'lumotlar talab qiladi, lekin ikkalasi ham bir xil o'lchov darajasiga tushadi (nisbatlar shkalasi).

Taksonomiyasini ishlab chiqarishga turli xil urinishlar qilingan o'lchov darajalari. Psixofizik Stenli Smit Stivens belgilangan nominal, tartib, oraliq va nisbat o'lchovlari. Nominal o'lchovlar qadriyatlar orasida mazmunli tartib tartibiga ega emas va har qanday birma-bir o'zgarishga imkon beradi. Oddiy o'lchovlar ketma-ket qiymatlar orasidagi aniq farqlarga ega, ammo bu qiymatlar uchun mazmunli tartibga ega va tartibni saqlaydigan har qanday o'zgarishga imkon beradi. Oraliq o'lchovlar aniqlangan o'lchovlar orasidagi masofalarga ega, ammo nol qiymati o'zboshimchalik bilan (masalan uzunlik va harorat darajadagi o'lchovlar Selsiy yoki daraja Farengeyt ) va har qanday chiziqli o'zgarishga ruxsat bering. Nisbat o'lchovlari ham mazmunli nol qiymatiga, ham har xil o'lchovlar orasidagi masofalarga aniqlanadi va har qanday qayta o'lchamlarini o'zgartirishga imkon beradi.

Faqat nominal yoki tartibli o'lchovlarga mos keladigan o'zgaruvchilarni raqamli ravishda oqilona o'lchash mumkin emasligi sababli, ba'zida ular quyidagicha birlashtiriladi kategorik o'zgaruvchilar, koeffitsient va interval o'lchovlari quyidagicha guruhlangan miqdoriy o'zgaruvchilar, bu ham bo'lishi mumkin diskret yoki davomiy, ularning sonli tabiati tufayli. Bunday farqlar bilan ko'pincha o'zaro bog'liqlik bo'lishi mumkin ma'lumotlar turi kompyuter fanida, ikkilangan kategorik o'zgaruvchilar bilan ifodalanishi mumkin Mantiqiy ma'lumotlar turi, o'zboshimchalik bilan tayinlangan polotomik kategorik o'zgaruvchilar butun sonlar ichida ajralmas ma'lumotlar turi va bilan doimiy o'zgaruvchilar haqiqiy ma'lumotlar turi jalb qilish suzuvchi nuqta hisoblash. Ammo informatika ma'lumotlarining turlarini statistik ma'lumotlar turlariga solishtirish ikkinchisining qaysi turkumlanishi amalga oshirilayotganiga bog'liq.

Boshqa toifalarga ajratish taklif qilingan. Masalan, Mosteller va Tukey (1977)[1] ajratilgan baholar, darajalar, hisoblangan kasrlar, hisoblar, summalar va qoldiqlar. Nelder (1990)[2] doimiy hisoblar, doimiy nisbatlar, hisoblash nisbati va ma'lumotlarning toifali usullari tasvirlangan. Shuningdek qarang: Chrisman (1998),[3] van den Berg (1991).[4]

Turli xil o'lchov protseduralaridan olingan ma'lumotlarga har xil turdagi statistik usullarni qo'llash maqsadga muvofiqmi yoki yo'qmi degan savol o'zgaruvchilar o'zgarishi va tadqiqot savollarini aniq talqin qilish bilan bog'liq masalalar bilan murakkablashadi. "Ma'lumotlar va ular tavsiflaydigan narsalar o'rtasidagi munosabatlar shunchaki statistik bayonotlarning ayrim turlari o'zgaruvchan bo'lmagan haqiqiy qiymatlarga ega bo'lishi mumkinligini aks ettiradi. Transformatsiyani o'ylab ko'rish oqilona bo'ladimi yoki yo'qmi, bu savolga javob berishga bog'liq. "(Qo'l, 2004, 82-bet).[5]

Oddiy ma'lumotlar turlari

Quyidagi jadval turli xil oddiy ma'lumotlar turlarini, ular bilan taqsimlanishlarni, ruxsat etilgan operatsiyalarni va boshqalarni tasniflaydi, mantiqiy mumkin bo'lgan qiymatlardan qat'i nazar, ushbu ma'lumotlar turlari odatda kodlangan haqiqiy raqamlar, chunki nazariyasi tasodifiy o'zgaruvchilar ko'pincha aniq raqamlarni o'z ichiga oladi deb taxmin qiladi.

Ma'lumot turiMumkin bo'lgan qiymatlarMasalan foydalanishO'lchov darajasiTarqatishNisbiy farqlar ko'lamiRuxsat etilgan statistikaRegressiya tahlili
ikkilik0, 1 (o'zboshimchalik bilan yorliqlar)ikkilik natija ("ha / yo'q", "rost / noto'g'ri", "muvaffaqiyat / muvaffaqiyatsizlik" va boshqalar)nominal o'lchovBernullibeqiyosrejimi, Kvadratchalarlogistik, probit
toifali1, 2, ..., K (o'zboshimchalik bilan yorliqlar)kategorik natija (o'ziga xos) qon guruhi, siyosiy partiya, so'z va boshqalar)toifalimultinomial logit, multinomial probit
tartiblitamsayı yoki haqiqiy raqam (o'zboshimchalik o'lchovi)nisbiy ball, faqat reyting yaratish uchun ahamiyatlitartib o'lchovitoifalinisbiy taqqoslashtartibli regressiya (buyurtma qilingan logit, buyurtma qilingan probit )
binomial0, 1, ..., Nmuvaffaqiyatlar soni (masalan, ha ovozlar) tashqarida N mumkininterval shkalasibinomial, beta-binomial, va boshqalar.qo'shimchalaranglatadi, o'rtacha, rejimi, standart og'ish, o'zaro bog'liqlikbinomial regressiya (logistik, probit )
hisoblashsalbiy butun sonlar (0, 1, ...)buyumlar soni (telefon qo'ng'iroqlari, odamlar, molekulalar, tug'ilish, o'lim va boshqalar) berilgan oraliqda / maydonda / hajmdanisbat ko'lamiPoisson, salbiy binomial, va boshqalar.multiplikativBarcha statistikalar intervalli o'lchovlar bo'yicha quyidagilarga ruxsat berilgan: o'rtacha geometrik, garmonik o'rtacha, o'zgarish koeffitsientiPoisson, salbiy binomial regressiya
haqiqiy qadrli qo'shimchalarhaqiqiy raqamharorat Selsiy yoki Farengeyt darajasida, nisbiy masofa, joylashish parametri va hokazo (yoki taxminan, katta hajmdagi o'zgaruvchan narsa)interval shkalasinormal va boshqalar (odatda haqida nosimmetrik anglatadi )qo'shimchalaranglatadi, o'rtacha, rejimi, standart og'ish, o'zaro bog'liqlikstandart chiziqli regressiya
haqiqiy qadrli multiplikativijobiy haqiqiy raqamharorat kelvin, narx, daromad, kattalik, o'lchov parametri va boshqalar (ayniqsa, katta miqyosda o'zgarganda)nisbat ko'laminormal holat, gamma, eksponent va boshqalar (odatda a qiyshaygan tarqatish)multiplikativBarcha statistikalar intervalli o'lchovlar bo'yicha quyidagilarga ruxsat berilgan: o'rtacha geometrik, garmonik o'rtacha, o'zgarish koeffitsientiumumlashtirilgan chiziqli model bilan logaritmik havola

Ko'p o'zgaruvchan ma'lumotlar turlari

Bitta raqam yordamida tavsiflab bo'lmaydigan ma'lumotlar ko'pincha poyabzalda saqlanadi tasodifiy vektorlar haqiqiy qiymatga ega tasodifiy o'zgaruvchilar, garchi ularni o'z-o'zidan davolash tendentsiyasi kuchaymoqda. Ba'zi misollar:

  • Tasodifiy vektorlar. Alohida elementlar bo'lishi mumkin yoki bo'lmasligi mumkin o'zaro bog'liq. O'zaro bog'liq tasodifiy vektorlarni tavsiflash uchun ishlatiladigan taqsimotlarga misollar ko'p o'zgaruvchan normal taqsimot va ko'p o'zgaruvchan t-taqsimot. Umuman olganda, har qanday elementlar va boshqalar o'rtasida o'zboshimchalik bilan korrelyatsiyalar bo'lishi mumkin; ammo, bu ko'pincha ma'lum bir kattalikdan boshqarib bo'lmaydigan bo'lib, o'zaro bog'liq elementlarga qo'shimcha cheklovlarni talab qiladi.
  • Tasodifiy matritsalar. Tasodifiy matritsalar chiziqli ravishda joylashtirilishi va tasodifiy vektorlar sifatida ko'rib chiqilishi mumkin; ammo, bu turli xil elementlar o'rtasidagi bog'liqlikni aks ettirishning samarali usuli bo'lmasligi mumkin. Ba'zi ehtimollik taqsimotlari tasodifiy matritsalar uchun maxsus ishlab chiqilgan, masalan. The matritsaning normal taqsimlanishi va Istaklarni tarqatish.
  • Tasodifiy ketma-ketliklar. Ular ba'zan tasodifiy vektorlar bilan bir xil deb hisoblanadi, ammo boshqa hollarda bu atama har bir tasodifiy o'zgaruvchining faqat yaqin o'zgaruvchilar bilan o'zaro bog'liq bo'lgan holatlariga nisbatan qo'llaniladi ( Markov modeli ). Bu a ning alohida holatidir Bayes tarmog'i va ko'pincha juda uzoq ketma-ketliklar uchun ishlatiladi, masalan. genlar ketma-ketligi yoki uzun matnli hujjatlar. Bir qator modellar bunday ketma-ketliklar uchun maxsus ishlab chiqilgan, masalan. yashirin Markov modellari.
  • Tasodifiy jarayonlar. Ular tasodifiy ketma-ketliklarga o'xshaydi, ammo bu erda ketma-ketlikning uzunligi noaniq yoki cheksiz bo'lsa va ketma-ketlikdagi elementlar birma-bir qayta ishlansa. Bu ko'pincha a deb ta'riflanishi mumkin bo'lgan ma'lumotlar uchun ishlatiladi vaqt qatorlari, masalan. aktsiyalarning ketma-ket kunlardagi narxi. Tasodifiy jarayonlar, shuningdek, alohida intervallarda emas, balki doimiy ravishda o'zgarib turadigan qiymatlarni modellashtirish uchun ishlatiladi (masalan, vaqtning ketma-ket momentlarida harorat).
  • Bayes tarmoqlari. Ular tasodifiy o'zgaruvchilarning agregatlariga mos keladi grafik modellar, bu erda individual tasodifiy o'zgaruvchilar a ga bog'langan grafik bilan tuzilish shartli taqsimotlar o'zgaruvchilarni yaqin o'zgaruvchilar bilan bog'lash.
  • Tasodifiy maydonlar. Ular kengaytmani ifodalaydi tasodifiy jarayonlar ko'p o'lchovlarga va odatda keng tarqalgan fizika, ular qaerda ishlatiladi statistik mexanika kabi xususiyatlarni tavsiflash uchun kuch yoki elektr maydoni bu uch o'lchov bo'yicha doimiy ravishda o'zgarishi mumkin (yoki vaqt kiritilganida to'rt o'lchov).

Ushbu tushunchalar turli xil ilmiy sohalarda kelib chiqadi va ulardan foydalanish tez-tez bir-birini qoplaydi. Natijada, ko'pincha bitta kontseptsiyada bir nechta kontseptsiyalar qo'llanilishi mumkin.

Adabiyotlar

  1. ^ Mosteller, F., & Tukey, J. V. (1977). Ma'lumotlarni tahlil qilish va regressiya. Boston: Addison-Uesli.
  2. ^ Nelder, J. A. (1990). Statistik ma'lumotlarni tahlil qilish va izohlashni kompyuterlashtirish uchun zarur bo'lgan bilimlar. Yilda Ekspert tizimlari va sun'iy intellekt: ma'lumotlar haqidagi ma'lumotlarga ehtiyoj. Kutubxonalar assotsiatsiyasi hisoboti, London, 23-27 mart.
  3. ^ Krisman, Nikolas R. (1998). Kartografiya uchun o'lchov darajalarini qayta ko'rib chiqish. Kartografiya va geografik axborot fanlari, vol. 25 (4), 231-242-betlar
  4. ^ van den Berg, G. (1991). Tahlil usulini tanlash. Leyden: DSWO Press
  5. ^ Hand, D. J. (2004). O'lchov nazariyasi va amaliyoti: Dunyo miqdoriy aniqlash orqali. London, Buyuk Britaniya: Arnold.