Taxminan satrlarni moslashtirish - Approximate string matching

Mediawiki-ning noaniq qidiruvi "g'azablangan ifoda": "Nazarda tutgan edingizmi: andré tuyg'ulari"

Yilda Kompyuter fanlari, taxminiy satrlarni moslashtirish (ko'pincha og'zaki so'zlar bilan ataladi loyqa satrlarni qidirish) topish texnikasi torlar mos keladigan a naqsh taxminan (aniq emas). Taxminan satrlarni moslashtirish muammosi odatda ikkita kichik muammoga bo'linadi: taxminiy topish pastki chiziq berilgan qator ichida mos keladi va naqshga mos keladigan lug'at qatorlarini topadi.

Umumiy nuqtai

Gugurtning yaqinligi ipni aniq gugurtga aylantirish uchun zarur bo'lgan ibtidoiy operatsiyalar soni bilan o'lchanadi. Ushbu raqam "deb nomlanadi masofani tahrirlash ip va naqsh o'rtasida. Oddiy ibtidoiy operatsiyalar:[1]

  • qo'shish: karyolakoat
  • o'chirish: koatkaryola
  • almashtirish: koatkost

Ushbu uchta operatsiya har qanday belgi o'chirilgan yoki qo'shilgan joyda NULL belgisini (bu erda * belgisi bilan) qo'shish orqali almashtirish shakllari sifatida umumlashtirilishi mumkin:

  • qo'shish: ko*tkoat
  • o'chirish: koatko*t
  • almashtirish: koatkost

Ba'zi taxminiy o'yinchilar ham muomala qilishadi transpozitsiya, bu erda ibtidoiy operatsiya sifatida satrdagi ikkita harfning pozitsiyalari almashtiriladi.[2]

  • ko'chirish: kostkots

Turli xil taqqoslashlar turli xil cheklovlarni keltirib chiqaradi. Ba'zi o'yinchilar bitta global vaznsiz narxdan, ya'ni o'yinni naqshga o'tkazish uchun zarur bo'lgan ibtidoiy operatsiyalarning umumiy sonidan foydalanadilar. Masalan, agar naqsh bo'lsa lasan, folga bitta almashtirish bilan farq qiladi, lasan bitta qo'shish orqali, moy bitta o'chirish bilan va tayoq ikkita almashtirish bilan. Agar barcha operatsiyalar tannarxning yagona birligi deb hisoblansa va chegara biriga o'rnatilsa, folga, lasanva moy vaqt ichida o'yinlar sifatida hisobga olinadi tayoq bo'lmaydi.

Boshqa o'yinchilar har bir turdagi operatsiyalar sonini alohida belgilaydilar, boshqalari esa umumiy narxni belgilaydilar, ammo har xil operatsiyalarga har xil og'irliklarni berishga imkon beradi. Ba'zi mos keluvchilar namunadagi alohida guruhlarga chegaralar va vaznlarni alohida belgilashga ruxsat berishadi.

Muammoni shakllantirish va algoritmlar

Taxminan qatorga mos keladigan muammoning mumkin bo'lgan ta'riflaridan biri quyidagicha: naqsh satrini berilgan va matn qatori , pastki qatorni toping yilda T, qaysi, ning barcha satrlari T, naqsh uchun eng kichik tahrirlash masofasiga ega P.

T-ning barcha pastki satrlari uchun tahrirlash masofasini P ga hisoblash va so'ngra minimal masofa bilan pastki satrni tanlash qo'pol kuch ishlatish usulidir. Biroq, ushbu algoritm ishlash vaqtiga ega bo'lar edi O (n3 m).

Sotuvchilar tomonidan taklif qilingan yaxshiroq echim[3], ishonadi dinamik dasturlash. Bu muammoning muqobil formulasidan foydalanadi: har bir pozitsiya uchun j matnda T va har bir pozitsiya men naqshda P, orasidagi minimal tahrir masofasini hisoblang men naqshning birinchi belgilari, va har qanday substring ning T holatida tugaydi j.

Har bir pozitsiya uchun j matnda Tva har bir pozitsiya men naqshda P, ning barcha satrlaridan o'ting T pozitsiyada tugaydi j, va ulardan qaysi biri minimal masofaga ega ekanligini aniqlang men naqshning birinchi belgilari P. Ushbu minimal masofani quyidagicha yozing E(menj). Hisoblashdan keyin E(menj) Barcha uchun men va j, biz asl muammoning echimini osongina topishimiz mumkin: bu substring E(mj) minimal (m naqshning uzunligi P.)

Hisoblash E(mj) ikki satr orasidagi tahrir masofasini hisoblashga juda o'xshaydi. Aslida, biz foydalanishingiz mumkin Levenshtein masofani hisoblash algoritmi uchun E(mj), faqat bitta farq shundaki, biz birinchi qatorni nol bilan boshlashimiz va hisoblash yo'lini saqlashimiz kerak, ya'ni foydalanganligimiz E(men − 1,j), E (men,j - 1) yoki E(men − 1,j - 1) hisoblashda E(menj).

O'z ichiga olgan qatorda E(xy) qiymatlari, keyin biz oxirgi qatorda minimal qiymatni tanlaymiz, bo'lsin E(x2y2) va hisoblash yo'lini orqaga qarab, 0-qatorga qaytib boring. Agar biz kelgan maydon shunday bo'lsa edi E(0, y1), keyin T[y1 + 1] ... T[y2] - bu naqshga minimal tahrir qilish masofasi bilan T substringidir P.

Hisoblash E(xy) qator oladi O (mn) dinamik dasturlash algoritmi bilan vaqt, orqaga qarab ishlash bosqichi esa O (n + m) vaqt.

Yaqinda o'tkazilgan yana bir g'oya - o'xshashlik qo'shilishidir. Ma'lumotlar bazasi ma'lumotlarning katta hajmiga taalluqli bo'lganda O (mn) dinamik dasturlash algoritmi bilan vaqt cheklangan vaqt ichida ishlay olmaydi. Demak, fikr o'xshashlikni hisoblash o'rniga barchasi juftlik qatorlari, nomzodlar juftligini kamaytirish uchun. Keng qo'llaniladigan algoritmlar filtrlarni tekshirish, xeshlash, Joyni sezgir xeshlash (LSH), Harakatlar va boshqa ochko'zlik va taxminiy algoritmlar. Ularning aksariyati bir vaqtning o'zida hisoblash uchun ba'zi bir ramkalarga (masalan, Map-Reduce) mos kelish uchun mo'ljallangan.

Onlayn va offlaynga qarshi

An'anaga ko'ra, taxminiy qatorlarni taqqoslash algoritmlari ikki toifaga bo'linadi: on-layn va off-line. On-layn algoritmlar yordamida naqsh qidirishdan oldin ishlov berilishi mumkin, ammo matn buni qila olmaydi. Boshqacha qilib aytganda, on-layn texnikasi indekssiz qidirishni amalga oshiradi. Onlayn-taxminiy moslashtirishning dastlabki algoritmlari Vagner va Fisher tomonidan taklif qilingan[4] va sotuvchilar tomonidan[5]. Ikkala algoritm ham asoslangan dinamik dasturlash ammo turli xil muammolarni hal qilish. Sotuvchilar algoritmi matndagi substringni qidiradi, Vagner va Fisher algoritmi hisoblaydilar Levenshteyn masofasi, faqat lug'atni loyqa qidirish uchun mos bo'lishi.

Onlayn qidirish texnikasi bir necha bor takomillashtirildi. Ehtimol, eng mashhur takomillashtirish bu bitap algoritmi (shuningdek, shift-yoki va shift-va algoritm deb ham ataladi), bu nisbatan qisqa naqsh satrlari uchun juda samarali. Bitap algoritmi - ning yuragi Unix qidirish qulaylik agrep. Onlayn qidirish algoritmlarini ko'rib chiqish G. Navarro tomonidan amalga oshirildi.[6]

Onlayn rejimda juda tezkor texnikalar mavjud bo'lishiga qaramay, ularning katta hajmli ma'lumotlarda ishlashi qabul qilinishi mumkin emas. Matnni oldindan qayta ishlash yoki indeksatsiya qidiruvni tezroq tezlashtiradi.Bugun har xil indeksatsiya algoritmlari taqdim etildi. Ular orasida qo'shimchali daraxtlar[7], metrik daraxtlar[8] va n-gramm usullari.[9][10] Matnda o'zboshimchalik bilan pastki qatorni topishga imkon beradigan indekslash texnikasi bo'yicha batafsil so'rov Navarro tomonidan berilgan va boshq.[11] Boytsov tomonidan lug'at usullarini (ya'ni qidiruv uslubiga mos keladigan barcha lug'at so'zlarini topishga imkon beradigan usullarni) hisoblash tadqiqotlari o'tkazildi.[12].

Ilovalar

Taxminan mos keladigan umumiy dasturlarga quyidagilar kiradi imlo tekshiruvi.[13] Ko'p miqdordagi DNK ma'lumotlari mavjud bo'lganda nukleotid ketma-ketliklar muhim dasturga aylandi.[14] Taxminan moslik ham ishlatiladi spam-filtrlash.[15] Bog'lanishni yozib oling ikki xil ma'lumotlar bazalaridagi yozuvlar mos keladigan keng tarqalgan dastur.

Iplarni mos keltirish tasvir va musiqa kabi ikkilik ma'lumotlarda ishlatilishi mumkin emas. Kabi turli xil algoritmlarni talab qiladi akustik barmoq izlari.

Shuningdek qarang

Adabiyotlar

  • ^ Baeza-Yeyts, R .; Navarro, G. (iyun 1996). "Taxminan qatorlarni moslashtirish uchun tezroq algoritm". Dan Xirxsbergda; Gen Mayers (tahrir). Kombinatorial naqshlarni taqqoslash (CPM'96), LNCS 1075. Irvin, Kaliforniya 1-23 betlar. CiteSeerX  10.1.1.42.1593.
  • ^ Baeza-Yeyts, R .; Navarro, G. "Lug'atdagi simlarning tez taxminiy tezligi" (PDF). Proc. SPIRE'98. IEEE CS Press. 14-22 betlar.
  • ^ Boytsov, Leonid (2011). "Taxminan lug'atni qidirish uchun indekslash usullari: qiyosiy tahlil". Eksperimental algoritmlar jurnali. 16 (1): 1–91. doi:10.1145/1963190.1963191.
  • ^ Kormen, Tomas; Leyserson, Rivest (2001). Algoritmlarga kirish (2-nashr). MIT Press. 364-7 betlar. ISBN  978-0-262-03293-3.
  • ^ Galil, Zvi; Apostoliko, Alberto (1997). Naqshlarni moslashtirish algoritmlari. Oksford [Oksfordshir]: Oksford universiteti matbuoti. ISBN  978-0-19-511367-9.
  • ^ Gusfild, Dan (1997). Iplar, daraxtlar va ketma-ketliklar algoritmlari: informatika va hisoblash biologiyasi. Kembrij, Buyuk Britaniya: Kembrij universiteti matbuoti. ISBN  978-0-521-58519-4.
  • ^ Myers, G. (1999 yil may). "Dinamik dasturlash asosida taxminiy satrlarni moslashtirish uchun tez bit-vektor algoritmi" (PDF). ACM jurnali. 46 (3): 395–415. doi:10.1145/316542.316550.
  • ^ Navarro, Gonsalo (2001). "Taxminan satrlarni moslashtirish uchun ekskursiya". ACM hisoblash tadqiqotlari. 33 (1): 31–88. CiteSeerX  10.1.1.96.7225. doi:10.1145/375360.375365.
  • ^ Navarro, Gonsalo; Baeza-Yeyts, Rikardo; Sutinen, Erkki; Tarxio, Jorma (2001). "Taxminan simlarni moslashtirish uchun indekslash usullari" (PDF). IEEE Data Engineering Bulletin. 24 (4): 19–27.
  • ^ Sotuvchilar, Piter H. (1980). "Evolyutsion masofalarni nazariyasi va hisoblashi: naqshni tan olish". Algoritmlar jurnali. 1 (4): 359–73. doi:10.1016/0196-6774(80)90016-4.
  • ^ Skiena, Stiv (1998). Algoritmlarni loyihalash bo'yicha qo'llanma (1-nashr). Springer. ISBN  978-0-387-94860-7.
  • ^ Ukkonen, E. (1985). "Taxminan qatorlarni moslashtirish algoritmlari". Axborot va boshqarish. 64 (1–3): 100–18. doi:10.1016 / S0019-9958 (85) 80046-2.
  • ^ Vagner, R .; Fischer, M. (1974). "Satrdan satrgacha tuzatish muammosi". ACM jurnali. 21: 168–73. doi:10.1145/321796.321811.
  • ^ Zobel, Jastin; Dart, Filipp (1995). "Katta leksikonlarda taxminiy mosliklarni topish". Dasturiy ta'minot va amaliyot. 25 (3): 331–345. CiteSeerX  10.1.1.14.3856. doi:10.1002 / spe.4380250307.

Tashqi havolalar