Loyqa qidirish - Fuzzy retrieval

Loyqa qidirish texnikasi Booleanning kengaytirilgan modeli va Loyqa to'plam nazariya. Ikkita klassik loyqa qidirish modellari mavjud: Aralashtirilgan Min va Maks (MMM) va Paice modeli. Ikkala modelda ham so'rovlarning og'irligini baholash usuli mavjud emas, ammo bu P-normalari algoritm.

Aralashtirilgan Min va Maks modeli (MMM)

Loyqa to'siqlar nazariyasida element turli xil a'zolik darajasiga ega, deylik dA, berilgan to'plamga A an'anaviy a'zolik tanlovi o'rniga (element hisoblanadi / element emas).
MMM-da[1] har bir indeks atamasi u bilan bog'liq bo'lgan loyqa to'plamga ega. Indeks muddatiga nisbatan hujjatning vazni A bilan bog'liq bo'lgan loyqa to'plamga hujjatning a'zolik darajasi deb hisoblanadi A. Birlashma va kesishish uchun a'zolik darajasi loyqa to'plamlar nazariyasida quyidagicha aniqlanadi:

Shunga ko'ra, forma so'rovi uchun olinishi kerak bo'lgan hujjatlar A yoki B, ikkita to'plamning birlashishi bilan bog'liq loyqa to'plamda bo'lishi kerak A va B. Xuddi shunday, forma so'rovi uchun olinishi kerak bo'lgan hujjatlar A va B, ikkita to'plamning kesishishi bilan bog'liq loyqa to'plamda bo'lishi kerak. Demak, hujjatning o'xshashligini aniqlash mumkin yoki so'rov bo'lishi max (dA, dB) va hujjatning o'xshashligi va so'rov bo'lishi min (d)A, dB). MMM modeli mantiqiy operatorlarni so'rovlar-hujjat o'xshashligini chiziqli kombinatsiya deb hisoblab yumshatishga harakat qiladi. min va maksimal hujjat og'irliklari.

Hujjat berilgan D. indeksli og'irliklar bilan dA1, dA2, ..., dAn shartlar uchun A1, A2, ..., Anva so'rovlar:

Qyoki = (A1 yoki A2 yoki ... yoki An)
Qva = (A1 va A2 va ... va An)

MMM modelidagi so'rov-hujjat o'xshashligi quyidagicha hisoblanadi:

SlM (Qyoki, D) = Cyoki1 * maksimal (dA1, dA2, ..., dAn) + Cyoki2 * min (dA1, dA2, ..., dAn)
SlM (Qva, D) = Cva1 * min (dA1, dA2, ..., dAn) + Cva2 * maksimal (dA1, dA2 ..., dAn)

qayerda Cyoki1, Cyoki2 uchun "yumshoqlik" koeffitsientlari yoki operator va Cva1, Cva2 uchun yumshoqlik koeffitsientlari va operator. Biz ko'rib chiqish paytida hujjatning maksimal og'irliklariga ko'proq ahamiyat berishni xohlaymiz yoki so'rovi va ko'rib chiqishda minimal ahamiyatga ega va so'rov, odatda bizda Cyoki1 > Cyoki2 va Cva1 > Cva2. Oddiylik uchun odatda shunday deb taxmin qilinadi Cyoki1 = 1 - Cyoki2 va Cva1 = 1 - Cva2.

Li va Fox[2] tajribalar shuni ko'rsatadiki, eng yaxshi ko'rsatkich odatda bilan sodir bo'ladi Cva1 oralig'ida [0,5, 0,8] va bilan Cyoki1 > 0,2. Umuman olganda, MMM ning hisoblash qiymati past, va qidirish samaradorligi bu bilan taqqoslaganda ancha yaxshi Booleanning standart modeli.

Paice modeli

The Pays model[3] MMM modelining umumiy kengaytmasi. Indeks shartlari uchun faqat minimal va maksimal og'irliklarni hisobga oladigan MMM modeli bilan taqqoslaganda, Paice modeli o'xshashlikni hisoblashda barcha og'irlik atamalarini o'z ichiga oladi:

qayerda r doimiy koeffitsient va wdi o'sish tartibida joylashtirilgan va uchun so'rovlar va kamayish tartibi yoki so'rovlar. N = 2 bo'lganda, Paice modeli MMM modeli bilan bir xil xatti-harakatni namoyish etadi.

Li va Foksning tajribalari[2] ni o'rnatganligini ko'rsatdi r uchun 1.0 ga va so'rovlar va 0,7 uchun yoki so'rovlar yaxshi qidirish samaradorligini beradi. Ushbu model uchun hisoblash qiymati MMM modelidan yuqori. Buning sababi, MMM modeli faqat aniqlikni talab qiladi min yoki maksimal har safar muddatli og'irliklar to'plamining an va yoki yoki bandi ko'rib chiqiladi, buni amalga oshirish mumkin O (n). Paice modeli og'irlik atamasini an yoki yo'qligiga qarab ortish yoki tushish tartibida saralashni talab qiladi va band yoki an yoki bandi ko'rib chiqilmoqda. Buning uchun kamida 0 (n log n) saralash algoritmi. O'zgaruvchan nuqtalarni hisoblash uchun ham yaxshi bitim zarur.

Standart Boolean modeli bo'yicha yaxshilanishlar

Li va Fox[2] Standard Boolean modelini MMI va Paice modellari bilan CISI, CACM va INSPEC uchta test to'plamlari bilan taqqosladi. O'rtacha aniqlikni oshirish bo'yicha hisobot natijalari:

CISICACMINSPEC
MMM68%109%195%
Pays77%104%206%

Bu standart modelga nisbatan juda yaxshi yaxshilanishlar. MMM Paice va P-norma natijalariga juda yaqin bo'lib, bu juda yaxshi usul bo'lishi mumkinligini ko'rsatadi va bu uchta eng samarali hisoblanadi.

So'nggi ish

Yaqinda Kang va boshq..[4] kontseptsiyani identifikatsiyalash orqali indekslangan loyqa qidirish tizimini ishlab chiqdilar.

Agar toza hujjatlarga qarasak Tf-idf yondashuv, hattoki to'xtash so'zlarini yo'q qilish, hujjat mavzusiga boshqalarga qaraganda ko'proq mos keladigan so'zlar bo'ladi va ular bir xil vaznga ega bo'ladi, chunki ular bir xil muddatli chastotaga ega. Agar biz foydalanuvchining so'rovga bo'lgan niyatini hisobga olsak, hujjat shartlarini aniqlab olishimiz mumkin. Har bir atamani ushbu leksik zanjirdagi kontseptsiya sifatida aniqlash mumkin, bu ushbu tushunchaning ushbu hujjat uchun ahamiyatini tarjima qiladi.
Ular Paice va P-normalari bo'yicha o'rtacha aniqlik bo'yicha yaxshilanishlar haqida xabar berishadi va Top-5 olingan hujjatlarni esga olishadi.

Zadrozniy[5] loyqa ma'lumot olish modelini qayta ko'rib chiqdi. U loyqa kengaytirilgan mantiqiy modelni quyidagicha kengaytiradi:

  • lingvistik atamalarni hujjatlarda ham kalit so'zlarning muhim ahamiyati sifatida qabul qilish
  • hujjatlar va so'rovlarni taqdim etish bilan bog'liq noaniqlikni hisobga olgan holda
  • hujjatlar va so'rovlarni taqdim etishda lingvistik terminlarni izohlash hamda ularni Zadening loyqa mantig'i (lingvistik bayonotlar hisobi) nuqtai nazaridan mos keltirish.
  • taklif etilayotgan modelning ba'zi pragmatik jihatlari, xususan hujjatlar va so'rovlarni indeksatsiya qilish uslublariga murojaat qilish

Tavsiya etilgan model matnli ma'lumotni taqdim etish va qidirish bilan bog'liq bo'lgan noaniqlikni va noaniqlikni tushunishga imkon beradi.

Shuningdek qarang

Qo'shimcha o'qish

  • Tulki, E .; S. Betrabet; M. Koushik; V. Li (1992), Axborotni qidirish: algoritmlar va ma'lumotlar tuzilmalari; Booleanning kengaytirilgan modeli, Prentice-Hall, Inc.

Adabiyotlar

  1. ^ Tulki, E. A .; S. Sharat (1986), Axborotni qidirishda yumshoq mantiqiy talqin qilishning ikkita usulini taqqoslash, TR-86-1 texnik hisoboti, Virjiniya shtati Tech, kompyuter fanlari bo'limi
  2. ^ a b v Li, V. C.; E. A. Fox (1988), Mantiqiy so'rovlarni talqin qilish sxemalarini eksperimental taqqoslash
  3. ^ Paice, D. D. (1984), Axborot qidirish tizimlarida mantiqiy qidiruv so'rovlarini yumshoq baholash, Axborot texnologiyalari, rez. Dev. Arizalar, 3 (1), 33-42
  4. ^ Kang, Bo-Yeong; Da-Von Kim; Xe-Jung Kim (2005), "Kontseptsiya identifikatsiyasi bilan indekslangan loyqa axborot qidirish", Matn, nutq va dialog, Kompyuter fanidan ma'ruza matnlari, 3658, Springer Berlin / Heidelberg, 179–186 betlar, doi:10.1007/11551874_23, ISBN  978-3-540-28789-6
  5. ^ Zadrozniy, Slavomir; Nowacka, Katarzina (2009), "loyqa ma'lumot qidirish modeli qayta ko'rib chiqildi", Loyqa to'plamlar va tizimlar, Elsevier North-Holland, Inc., 160 (15): 2173–2191, doi:10.1016 / j.fss.2009.02.012