Ikkilik mustaqillik modeli - Binary Independence Model

The Ikkilik mustaqillik modeli (BIM)[1][2] ehtimollikdir ma'lumot olish hujjat / so'rov o'xshashligi ehtimolini taxmin qilish uchun oddiy taxminlarni keltirib chiqaradigan usul.

Ta'riflar

Ikkilik mustaqillik farazlari shundan iboratki, hujjatlar ikkilik vektorlar. Ya'ni, faqat hujjatlardagi atamalarning mavjudligi yoki yo'qligi qayd etiladi. Shartlar mustaqil ravishda tegishli hujjatlar to'plamida tarqatiladi va ular mustaqil ravishda ahamiyatsiz hujjatlar to'plamida tarqatiladi. Mantiqiy o'zgaruvchilar. Ya'ni, hujjat yoki so'rovni taqdim etish har bir ko'rib chiqilayotgan davr uchun bitta mantiqiy elementga ega bo'lgan vektordir. Aniqrog'i, hujjat vektor bilan ifodalanadi d = (x1, ..., xm) qayerda xt=1 agar muddat t hujjatda mavjud d va xt=0 agar u bo'lmasa. Ko'pgina hujjatlar ushbu soddalashtirish bilan bir xil vektorli tasvirga ega bo'lishi mumkin. So'rovlar xuddi shunday tarzda taqdim etiladi. "Mustaqillik" shuni anglatadiki, hujjatdagi atamalar bir-biridan mustaqil ravishda ko'rib chiqiladi va atamalar o'rtasidagi bog'liqlik modellashtirilmaydi. Ushbu taxmin juda cheklangan, ammo ko'plab holatlar uchun etarlicha yaxshi natijalar berishi isbotlangan. Ushbu mustaqillik a ning "sodda" taxminidir Naive Bayes tasniflagichi, bu erda bir-birlarini nazarda tutadigan xususiyatlar, shunga qaramay, soddalik uchun mustaqil deb hisoblanadi. Ushbu taxmin vakolatxonani a-ning misoli sifatida ko'rib chiqishga imkon beradi Vektorli kosmik model har bir atamani boshqa atamalar uchun ishlatiladigan o'lchovlarga nisbatan ortogonal o'lchov bo'ylab 0 yoki 1 qiymatlari sifatida ko'rib chiqish.

Ehtimollik hujjatning tegishli ekanligi ushbu hujjat atamalari vektorining mosligi ehtimolidan kelib chiqadi . Yordamida Bayes hukmronlik qilmoqda biz olamiz:

qayerda va tegishli yoki tegishli bo'lmagan hujjatni olish ehtimoli. Agar shunday bo'lsa, unda hujjatning vakili x.Aniq ehtimollarni oldindan bilish mumkin emas, shuning uchun hujjatlarni yig'ish bo'yicha statistik ma'lumotlardan foydalanish kerak.

va tegishli yoki nomuvofiq hujjatni so'rov uchun navbati bilan olishning oldingi ehtimolligini ko'rsating q. Agar biz, masalan, to'plamdagi tegishli hujjatlarning foizini bilgan bo'lsak, unda biz ushbu ehtimolliklarni taxmin qilish uchun foydalana olamiz, chunki hujjat so'rovga tegishli yoki ahamiyatsiz bo'lgani uchun bizda quyidagilar mavjud:

So'rov shartlari Og'irligi

Ikkilik so'rov va nuqta mahsuloti hujjat va so'rov o'rtasidagi o'xshashlik funktsiyasi sifatida muammo, qidiruv samaradorligi yuqori bo'ladigan darajada, so'rovdagi terminlarga og'irliklarni belgilashda. Ruxsat bering va tegishli hujjat va ahamiyatsiz hujjatning ega bo'lish ehtimoli bo'lishi menth navbati bilan. Yu va Salton,[1] BIM-ni birinchi bo'lib tanishtirganlar, ning og'irligi menth atama - ning ortib borayotgan funktsiyasi . Shunday qilib, agar dan yuqori , muddatning og'irligi men muddatdan yuqori bo'ladi j. Yu va Salton[1] shuni ko'rsatdiki, so'rov shartlariga bunday og'irlik berilishi so'rov shartlari teng darajada tortilganiga qaraganda qidirish samaradorligini oshiradi. Robertson va Spark Jons[2] keyinchalik agar ekanligini ko'rsatdi menth muddatiga vazn belgilanadi , keyin Ikkilik Mustaqillik faraziga binoan optimal qidirish samaradorligi olinadi.

Ikkilik mustaqillik modeli Yu va Salton tomonidan taqdim etilgan.[1] Ikkilik mustaqillik modeli nomi Robertson va Spark Jons tomonidan kiritilgan.[2]

Shuningdek qarang

Qo'shimcha o'qish

  • Kristofer D. Manning; Prabhakar Raghavan; Xinrix Shutze (2008), Axborotni qidirishga kirish, Kembrij universiteti matbuoti
  • Stefan Buttcher; Charlz L. A. Klark; Gordon V. Kormak (2010), Axborotni qidirish: qidiruv tizimlarini amalga oshirish va baholash, MIT Press

Adabiyotlar

  1. ^ a b v d Yu, C. T .; Salton, G. (1976). "Aniq tortish - avtomatik indekslashning samarali usuli" (PDF). ACM jurnali. 23: 76. doi:10.1145/321921.321930.
  2. ^ a b v Robertson, S. E.; Spärck Jons, K. (1976). "Qidiruv so'zlarining dolzarbligi". Amerika Axborot Ilmiy Jamiyati jurnali. 27 (3): 129. doi:10.1002 / asi.4630270302.