Joker belgilar bilan mos kelish - Matching wildcards

Yilda Kompyuter fanlari uchun algoritm mos keladigan joker belgilar (shuningdek, nomi bilan tanilgan globbing) tarkibidagi matn satrlarini taqqoslashda foydalidir joker sintaksis.[1] Ushbu algoritmlarning keng tarqalgan qo'llanilishiga quyidagilar kiradi buyruq qatori interfeyslari, masalan. The Bourne shell[2] yoki Microsoft Windows buyruq satri[3] yoki matn muharriri yoki fayl menejeri, shuningdek ba'zi qidiruv tizimlarining interfeyslari[4] va ma'lumotlar bazalari.[5] Joker belgilarni moslashtirish - bu mos keladigan muammolarning bir qismidir doimiy iboralar va mag'lubiyatni moslashtirish umuman.[6]

Muammo

Joker belgini moslashtiruvchi joker belgini tekshiradi p kirish qatoriga qarshi s. Bu bajaradi langar match, faqat qachon haqiqiy bo'ladi p to'liq mos keladi s.

Naqsh har qanday umumiy sintaksisga asoslangan bo'lishi mumkin (qarang globbing ), ammo Windows-da dasturchilar faqat mahalliy C ish vaqti tomonidan qo'llab-quvvatlanadigan soddalashtirilgan sintaksisni muhokama qilishadi:[7][8]

  • Qochish belgilari aniqlanmagan
  • Joker belgilar: ? har qanday belgining bitta ko'rinishiga to'g'ri keladi. * har qanday belgining o'zboshimchalik bilan ko'p (nolga teng) hodisalariga mos keladi.

Ushbu maqolada, asosan, agar boshqacha ko'rsatilmagan bo'lsa, muammoning Windows formulasi muhokama qilinadi.

Ta'rif

Nolga asoslangan indekslarda ko'rsatilgan joker belgilarga mos keladigan muammoni quyidagicha ta'riflash mumkin:

qayerda mij naqshga mos kelish natijasidir p matnga qarshi t kesilgan men va j mos ravishda belgilar. Bu Rixter algoritmi va Parchalar Cantatore to'plamida topilgan algoritm.[9][10] Ushbu tavsif shunga o'xshash Levenshteyn masofasi.

Bilan bog'liq muammolar

Kompyuter fanining bevosita bog'liq muammolariga quyidagilar kiradi.

  • Muhim ahamiyatga ega bo'lmagan yoki bo'shliqlarga mos keladigan naqsh, faqat teng darajadagi tenglashtirilmagan qatorni qidirish ? belgilangan.[11][12]
  • Joker belgilar bilan mos keladigan naqsh, ikkala joker belgilarning teng huquqliligi bilan belgilanmagan satrlarni qidirish. Moslashuvchan joker belgilar variantiga mos keladigan naqshda uzunlik chegarasi berilmagan bo'lsa, eksponent ish vaqti mavjud.[13]

Tarix

Joker belgilarni moslashtirishning dastlabki algoritmlari ko'pincha ishonar edi rekursiya, ammo texnikani ishlash ko'rsatkichlari bo'yicha tanqid qilishdi[10] va ishonchlilik[8] mulohazalar. Joker belgilarga mos keladigan rekursiv bo'lmagan algoritmlar ushbu fikrlarni hisobga olgan holda ma'qullandi.

Rekursiv va rekursiv bo'lmagan algoritmlar orasida naqshlarni moslashtirish operatsiyasini bajarish strategiyasi juda xilma-xildir, bu quyida keltirilgan turli xil algoritmlar misollaridan dalolat beradi. Sinov ishi ishlab chiqish va ishlashni optimallashtirish texnikasi ma'lum algoritmlarga, xususan, rekursiv algoritm tanqidchilari tomonidan ishlab chiqilganlarga ta'sir ko'rsatdi.

Rekursiv algoritmlar

Rekursiya odatda mos kelishda sodir bo'ladi * mos keladigan qo'shimcha qo'shimchasi bo'lganda. Bu shakl orqaga qaytish, shuningdek, ba'zi bir muntazam ifoda moslashtiruvchilari tomonidan amalga oshiriladi.

  • Boy Salz ' wildmat algoritm (sh-ga o'xshash sintaksis)[14]
  • Filipning algoritmi[15] va Vignesh Murugesan algoritmi[16]
  • Martin Rixter algoritmi[9] (bilan bir xil Parchalar va 7-zip algoritmi bilan bog'liq)[17]
  • S kutubxonasi fnmatch ilovalar (qo'llab-quvvatlaydi [...] va ko'p baytli belgilar to'plami):

Ushbu algoritmlarning umumiy shakli bir xil. Rekursiya paytida algoritm pastki qatorlarga kiritishni kesadi va bitta substring ijobiy natija berganida o'yin sodir bo'lgan deb hisoblaydi. Uchun dowild ("* X", "abcX"), u ochko'zlik bilan qo'ng'iroq qiladi dowild ("X", "abcX"), dowild ("X", "bcX"), dowild ("X", "cX") va dowild ("X", "X"). Ular odatda funktsiyalarni qo'llab-quvvatlash kabi muhim bo'lmagan narsalar va kichik, ammo juda samarali optimallashtirish kabi muhim omillar bilan farq qiladi. Ulardan ba'zilari quyidagilarni o'z ichiga oladi:

  • Haddan tashqari rekursiyaga qarshi ABORT signal (Lars Mathiesen 1991). Qolgan barcha satrlar (naqsh va matn) bo'yicha sodda tarzda takrorlash to'g'ri * va bitta substringning ijobiy o'yinni qaytarishiga ishonch hosil qiling, ko'pchilik bilan o'yinni rad etish uchun ish vaqti eksponentga aylanadi * matnda. Lars Mathiesen uchta sinfga qaytishni o'zgartiradi, o'yin, mos kelmaslik va ABORT (yulduzcha rekursiyasi uchun hech qanday mos kelish mumkin emas.) ABORT qiymati matn juda erta ishlatilganda yoki boshqa yulduzcha o'yini muvaffaqiyatsiz tugaganida qaytariladi, chunki yulduzcha soniga nisbatan chiziqli ishlash. (Umumiy murakkablik mos keladigan qolgan belgilar soniga qo'shimcha ravishda kvadratik bo'ladi.)[14] Git / Rsync-ning yirtqich o'yini ABORT ham yaroqsiz yozuvlarni qamrab oladi.[21] Yangi INN uwildmat ham xuddi shunday qiladi.[22]
  • Rekursiyada yulduzcha o'sishi. Ushbu wildmatch tweak nisbatan kichikroq. Bu rekursiya "abcX" ustidagi "* X" ga mos kelmoqchi bo'lganda qo'llaniladi: agar yulduzcha keyin "X" kabi harf bilan yozilsa, faqat teng uzunlikdagi oxirgi taqqoslashda gugurt hosil qilish imkoniyati bo'lishi aniq. .[21] Bu ilgari 2000 yilda uwildmatda kuzatilgan[22] va van Rossumning fnmatchida yanada aniqroq FNM_PATHNAME.

Martin Rixter algoritmi ushbu operatsiyadan istisno, garchi umumiy operatsiya unga teng bo'lsa. * U tobora ortib boradi yoki masalaning dinamik dasturlash formulasidan so'ng indekslar. "ABORT" texnikasi unga ham tegishli.[9] Odatiy naqshlarda (Kantator tomonidan sinovdan o'tganidek), bu ochko'zlik chaqiruvidan ko'ra sekinroq.[10]

Rekursiv algoritmlarni mulohaza qilish umuman osonroq va ABORT modifikatsiyasi bilan ular eng yomon murakkablik nuqtai nazaridan maqbul ishlashadi. * Bo'lmagan satrlarda ular chiziqli-satr o'lchamiga mos keladigan vaqtni oladi, chunki qat'iy bir-biriga bog'liqlik mavjud.

Rekursiv bo'lmagan algoritmlar

Rekursiv algoritm tanqidchilari tomonidan quyidagilar ishlab chiqilgan:

Quyidagilar emas:

  • Jek Xendi algoritmi[25] (muvaffaqiyatsiz MATCH ("*?", "Xx"))

Yuqoridagi takroriy funktsiyalar eski naqsh / matn ko'rsatgichlarini saqlash orqali orqaga qaytishni amalga oshiradi va unga qaytish mos kelmasa. Kurtning so'zlariga ko'ra, faqat bitta muvaffaqiyatli o'yin talab qilinganligi sababli, faqatgina bitta to'plamni saqlash kerak.[17]

Bundan tashqari, joker belgilarni moslashtirish muammosiga aylantirilishi mumkin doimiy ifoda soddaligi yordamida moslashtirish matnni almashtirish yondashuvi. Kabi rekursiv bo'lmagan doimiy ekspression moslashtiruvchi vositalar bo'lsa ham Tompsonning qurilishi backreference-ni qo'llab-quvvatlamasligi sababli amalda kamroq qo'llaniladi, umuman joker belgilar bilan mos kelish xususiyatlarga o'xshash boy xususiyatlarga ega emas. (Aslida, yuqoridagi algoritmlarning aksariyati faqat qo'llab-quvvatlaydi ? va *.) Rass Koksning Tompson NFA dasturini bunga ahamiyatsiz o'zgartirish mumkin.[26] Gustavo Navarroniki BDMasoslangan nrgrep algoritmi samarali qo'shimchalarga urg'u berib, yanada bug'langan dasturni ta'minlaydi.[27] Shuningdek qarang doimiy ifoda § amalga oshirish.

Shuningdek qarang

Adabiyotlar

  1. ^ "Joker belgilar". ScienceDirect. 2018.
  2. ^ Quigley, Elli (2005). UNIX Shell dasturlash QuickStart. InformIT.com.
  3. ^ "MS-DOS va Windows joker belgilar". Microsoft Developer Network Kutubxona.
  4. ^ "Apache Lucene - so'rovlarni tahlil qiluvchi sintaksis". Apache Lucene 2.9.4 Hujjatlar. 2006 yil.
  5. ^ "SQL joker belgilar". W3Maktablar. 2018.
  6. ^ Goyvaerts, yanvar (2018). "Regular-Expressions.info-ga xush kelibsiz". RegularExpressions.info.
  7. ^ "Joker belgini kengaytirish". docs.microsoft.com.
  8. ^ a b v Krauss, Kirk (2008). "Joker belgilar bilan mos kelish: algoritm". Doktor Dobbning jurnali.
  9. ^ a b v Deadlock (2015). "Joker belgilar bilan mos keladigan rekursiv algoritm C ++". Stack overflow.
  10. ^ a b v d Kantator, Alessandro (2003). "Joker belgilarga mos algoritmlar".
  11. ^ Iliopoulos, Kostas S.; Raxman, M. Sohel (2007). "Algoritmlarni naqshga solishtirish g'amxo'rlik qilmang" (PDF). SOFSEM 2007: informatika nazariyasi va amaliyoti, kompyuter fanlari nazariyasi va amaliyotining zamonaviy tendentsiyalari bo'yicha 33-konferentsiya. Xarrachov, Chexiya
  12. ^ Klifford, Piter; Clifford, Rafael (2007 yil yanvar). "Oddiy deterministik joker belgilarni moslashtirish". Axborotni qayta ishlash xatlari. 101 (2): 53–54. doi:10.1016 / j.ipl.2006.08.002.
  13. ^ Vu, Xindong; Tsian, Dji-Peng; Xie, Fei (2014 yil 12-sentyabr). "Moslashuvchan belgilar bilan naqsh solishtirish". Kompyuter fanlari va texnologiyalar jurnali. 29 (5): 740–750. doi:10.1007 / s11390-014-1464-3.
  14. ^ a b Salz, boy (1991). "wildmat.c". GitHub.
  15. ^ Filip (2014). "Satrlarni joker belgilar bilan taqqoslash". Stack overflow.
  16. ^ Murugesan, Vignesh (2014). "WildCard-ga mos kelish algoritmi".
  17. ^ a b v Kurt, Dogan. "Joker belgilarni moslashtirish usullari".
  18. ^ van Rossum, Gvido (2019 yil 20-noyabr). "freebsd / lib / libc / gen / fnmatch.c". Olingan 21 noyabr 2019.
  19. ^ "fnmatch.c". opensource.apple.com. 1999 yil.
  20. ^ "fnmatch_internal.c". Beren Minorning ko'zgulari. 21-noyabr, 2019-yil.
  21. ^ a b "git / git: wildmatch.c". GitHub. 2020-01-20.
  22. ^ a b "uwildmat.c magistral / lib - INN". inn.eyrie.org. Olingan 27 noyabr 2019.
  23. ^ Krauss, Kirk (2018). "Joker belgilarni moslashtirish: katta ma'lumotlarning takomillashtirilgan algoritmi". Ishlash uchun ishlab chiqing.
  24. ^ Siler (2013). "Globus naqshini moslashtirish uchun rekursiv echimlar". Stack overflow.
  25. ^ Handy, Jek (2005). "Joker belgilarni taqqoslash (globbing}". Kod loyihasi.
  26. ^ Koks, Ross. "Muntazam ifodalarni moslashtirish oddiy va tezkor bo'lishi mumkin".
  27. ^ Navarro, Gonsalo (2001 yil 10-noyabr). "NR grep: tezkor va moslashuvchan naqshga mos keladigan vosita" (PDF). Dasturiy ta'minot: Amaliyot va tajriba. 31 (13): 1265–1312. doi:10.1002 / spe.411.