Qo'shimcha avtomat - Suffix automaton

Qo'shimcha avtomat
Qo'shimcha avtomat bold.svg
TuriSubstring indeksi
Ixtiro qilingan1983
Tomonidan ixtiro qilinganAnselm Blumer; Janet Blumer; Andjey Ehrenfeucht; Devid Xussler; Ross Makkonnell
Vaqtning murakkabligi yilda katta O yozuvlari
AlgoritmO'rtachaEng yomon holat
Bo'shliq

Yilda Kompyuter fanlari, a avtomat qo'shimchasi samarali ma'lumotlar tuzilishi vakili uchun substring indeksi bularning barchasi haqida siqilgan ma'lumotlarni saqlash, qayta ishlash va olish imkonini beradigan berilgan satr pastki chiziqlar. Ipning avtomati qo'shimchasi eng kichigi yo'naltirilgan asiklik grafik bag'ishlangan boshlang'ich tepalik va "so'nggi" tepaliklar to'plami bilan, masalan, boshlang'ich tepalikdan so'nggi tepalarga yo'llar qatorning qo'shimchalarini ifodalaydi. Rasmiy ravishda, qo'shimchali avtomat quyidagi xususiyatlar to'plami bilan belgilanadi:

  1. Uning yoylar bilan belgilanadi harflar;
  2. uning hech biri tugunlar bir xil harf bilan belgilangan ikkita chiqadigan yoyga ega bo'ling;
  3. ning har bir qo'shimchasi uchun boshlang'ich tepalikdan ba'zi yakuniy tepalikka qadar yo'l bor, shunday qilib birlashtirish yo'ldagi harflar ushbu qo'shimchani hosil qiladi;
  4. u yuqoridagi xususiyatlar bilan belgilangan barcha grafikalar orasida eng kam tepalikka ega.

Shartlarida gapirish avtomatlar nazariyasi, qo'shimchali avtomat bu minimal qisman aniqlangan cheklangan avtomat to'plamini taniydigan qo'shimchalar berilgan mag'lubiyat . The davlat grafigi qo'shimchasi avtomatining yo'naltirilgan asiklik so'z grafigi (DAWG) deyiladi, bu atama ba'zan har qanday kishi uchun ham ishlatiladi deterministik atsiklik chekli holatdagi avtomat.

Qo'shimchalar avtomatlari 1983 yilda bir guruh olimlar tomonidan kiritilgan Denver universiteti va Kolorado universiteti Boulder. Ular taklif qildilar chiziqli vaqt onlayn algoritm uning konstruktsiyasi uchun va ipning avtomat qo'shimchasi ekanligini ko'rsatdi kamida ikki belgidan iborat uzunlikka ega bo'lishi kerak davlatlar va ko'pi bilan o'tish. Keyingi ishlar avtomatika qo'shimchasi bilan chambarchas bog'liqligini ko'rsatdi qo'shimchali daraxtlar va tugunlarni bitta chiqadigan yoy bilan siqish natijasida olingan siqilgan qo'shimchali avtomat kabi qo'shimchalar avtomatining bir nechta umumlashmalarini bayon qildilar.

Qo'shimcha avtomatika kabi muammolarga samarali echimlarni taqdim etadi substring qidirish va hisoblash eng katta umumiy substring ikki va undan ortiq satr.

Tarix

Anselm Blumer torlar uchun umumlashtirilgan CDAWG chizilgan ababc va abcab

Avtomatik qo'shimchaning kontseptsiyasi 1983 yilda kiritilgan[1] bir guruh olimlar tomonidan Denver universiteti va Kolorado universiteti Boulder Anselm Blumer, Janet Blumer, Andjey Ehrenfeucht, Devid Xussler va Ross Makkonnell, shunga o'xshash tushunchalar ilgari Piter Vaynerning asarlaridagi qo'shimchalar daraxtlari bilan birgalikda o'rganilgan bo'lsa ham,[2] Vaughan Pratt[3] va Anatol Slissenko.[4] Dastlabki ishlarida Blumer va boshq. mag'lubiyatga qurilgan qo'shimchali avtomatni ko'rsatdi uzunligi katta eng ko'pi bor davlatlar va ko'pi bilan o'tish va chiziqli taklif qildi algoritm avtomat qurish uchun.[5]

1983 yilda Mu-Tian Chen va Djoel Seyferalar mustaqil ravishda Vaynerning 1973 yildagi qo'shimchalarni yaratish algoritmini ko'rsatdilar[2] ipning qo'shimchali daraxtini qurish paytida teskari qatorning qo'shimchali avtomatini tuzadi yordamchi tuzilma sifatida.[6] 1987 yilda Blumer va boshq. qo'shimchali daraxtda ishlatiladigan siqishni texnikasini qo'shimchaning avtomatiga tatbiq etdi va siqilgan qo'shimchani avtomat ixtiro qildi, bu siqilgan yo'naltirilgan asiklik so'z grafikasi (CDAWG) deb ham ataladi.[7] 1997 yilda, Maksim Krohemor va Renaud Vérin to'g'ridan-to'g'ri CDAWG qurilishi uchun chiziqli algoritmni ishlab chiqdi.[1] 2001 yilda Shunsuke Inenaga va boshq. tomonidan berilgan so'zlar to'plami uchun CDAWG qurish algoritmini ishlab chiqdi uchlik.[8]

Ta'riflar

Odatda qo'shimchalar avtomatlari va ularga tegishli tushunchalar haqida gapirganda, ba'zi tushunchalar rasmiy til nazariyasi va avtomatlar nazariyasi ishlatiladi, xususan:[9]

  • "Alifbo" cheklangan o'rnatilgan bu so'zlarni qurish uchun ishlatiladi. Uning elementlari "belgilar" deb nomlanadi;
  • "So'z" belgilarning cheklangan ketma-ketligi . So'zning "uzunligi" deb belgilanadi ;
  • "Rasmiy til "bu berilgan alifbo ustidagi so'zlar to'plami;
  • "Barcha so'zlarning tili" deb belgilanadi (bu erda "*" belgisi turadi Kleene yulduzi ), "bo'sh so'z" (nol uzunlikdagi so'z) belgi bilan belgilanadi ;
  • "Birlashtirish so'zlar " va deb belgilanadi yoki va yozish orqali olingan so'zga mos keladi o'ng tomonda , anavi, ;
  • "Tillarni birlashtirish" va deb belgilanadi yoki va juft juftlik birikmalari to'plamiga mos keladi ;
  • Agar so'z bo'lsa sifatida ifodalanishi mumkin , qayerda , keyin so'zlar , va "prefiks", "suffiks" va "pastki so'z "(substring) so'zi mos ravishda;
  • Agar keyin ichida "sodir bo'ladi" deyiladi pastki so'z sifatida. Bu yerda va ning paydo bo'lishining chap va o'ng pozitsiyalari deyiladi yilda mos ravishda.

Avtomat tuzilishi

Rasmiy ravishda, aniqlangan cheklangan avtomat tomonidan belgilanadi 5-karra , qaerda:[10]

  • so'zlarni yaratish uchun ishlatiladigan "alifbo",
  • avtomat to'plami "davlatlar ",
  • avtomatning "boshlang'ich" holati,
  • avtomat "yakuniy" holatlar to'plami,
  • a qisman avtomatning "o'tish" funktsiyasi, shunday qilib uchun va yoki aniqlanmagan yoki o'tishni belgilaydi belgi ustidan .

Odatda, deterministik cheklangan avtomat a shaklida ifodalanadi yo'naltirilgan grafik ("diagramma") shunday:[10]

  • Grafika to'plami tepaliklar davlatlarning holatiga mos keladi ,
  • Grafika boshlang'ich holatiga mos keladigan ma'lum bir belgilangan tepaga ega ,
  • Grafada so'nggi holatlar to'plamiga mos keladigan bir nechta belgilangan tepaliklar mavjud ,
  • Grafika to'plami yoylar o'tishlar to'plamiga mos keladi ,
  • Xususan, har bir o'tish yoyi bilan ifodalanadi ga belgi bilan belgilangan . Ushbu o'tishni quyidagicha belgilash mumkin .

O'zining diagrammasi bo'yicha avtomat so'zni taniydi faqat dastlabki tepalikdan yo'l bo'lsa ba'zi yakuniy tepalikka shunday qilib, bu yo'lda belgilar birlashishi shakllanadi . Avtomat tomonidan tanilgan so'zlar to'plami avtomat tomonidan tan olinishi uchun o'rnatilgan tilni hosil qiladi. Ushbu atamalarda, -ning qo'shimchasi tomonidan tan olingan til uning (ehtimol bo'sh) qo'shimchalarining tili.[9]

Avtomatik holatlar

So'zning "to'g'ri konteksti" tilga nisbatan to'plamdir bu so'zlar to'plami shunday qilib, ularning birlashishi dan so'z hosil qiladi . To'g'ri kontekstlar tabiiylikni keltirib chiqaradi ekvivalentlik munosabati barcha so'zlar to'plamida. Agar til bo'lsa ba'zi deterministik cheklangan avtomat tomonidan tan olinadi, ungacha noyob mavjud izomorfizm bir xil tilni taniy oladigan va shtatlarning mumkin bo'lgan minimal soniga ega bo'lgan avtomat. Bunday avtomat a deyiladi minimal avtomat berilgan til uchun . Myhill-Nerode teoremasi uni to'g'ri kontekst bo'yicha aniq belgilashga imkon beradi:[11][12]

Teorema — Minimal avtomat tilni taniydi alifbo ustida quyidagi tarzda aniq belgilanishi mumkin:

  • Alifbo bir xil bo'lib qoladi,
  • Shtatlar to'g'ri kontekstga mos keladi barcha mumkin bo'lgan so'zlardan ,
  • Dastlabki holat bo'sh so'zning to'g'ri kontekstiga mos keladi ,
  • Yakuniy holatlar to'g'ri kontekstga mos keladi dan so'zlar ,
  • O'tish tomonidan berilgan , qayerda va .

Ushbu atamalarda "qo'shimchali avtomat" so'zning qo'shimchalar tilini tan oladigan minimal deterministik cheklangan avtomatdir. . So'zning to'g'ri konteksti ushbu tilga nisbatan so'zlardan iborat , shu kabi ning qo`shimchasidir . Bu quyidagi lemma ta'rifini shakllantirishga imkon beradi bijection so'zning to'g'ri konteksti va uning paydo bo'lishining to'g'ri pozitsiyalari to'plami o'rtasida :[13][14]

Teorema — Ruxsat bering ning to'g'ri pozitsiyalari to'plami bo'lishi kerak yilda .

O'rtasida quyidagi biektsiya mavjud va :

  • Agar , keyin ;
  • Agar , keyin .

Masalan, so'z uchun va uning pastki so'zi , u ushlab turadi va . Norasmiy, ning paydo bo'lishiga ergashgan so'zlar bilan hosil bo'ladi oxirigacha va ushbu hodisalarning to'g'ri pozitsiyalari bilan hosil bo'ladi. Ushbu misolda element so'z bilan mos keladi so'z esa element bilan mos keladi .

Bu qo'shimchaning avtomat holatlarining bir nechta tuzilish xususiyatlarini nazarda tutadi. Ruxsat bering , keyin:[14]

  • Agar va kamida bitta umumiy elementga ega bo'lish , keyin va umumiy elementga ham ega. Bu shuni anglatadi ning qo`shimchasidir va shuning uchun va . Yuqorida keltirilgan misolda, , shuning uchun ning qo`shimchasidir va shunday qilib va ;
  • Agar , keyin , shunday qilib ichida sodir bo'ladi faqat ning qo`shimchasi sifatida . Masalan, uchun va buni ushlab turadi va ;
  • Agar va ning qo`shimchasidir shu kabi , keyin . Yuqoridagi misolda va u "oraliq" qo'shimchasini ushlab turadi bu .

Har qanday davlat avtomat qo'shimchasining ba'zi uzluksizligini taniydi zanjir ushbu davlat tomonidan tan olingan eng uzun so'zning ichki qo'shimchalari.[14]

"Chap kengaytma" Ipning eng uzun ip bilan bir xil to'g'ri kontekstga ega . Uzunlik tomonidan tan olingan eng uzun ipning bilan belgilanadi . Unda quyidagilar mavjud:[15]

Teorema — Chap kengaytmasi sifatida ifodalanishi mumkin , qayerda har qanday yuzaga keladigan eng uzun so'zdir yilda oldin .

"Suffix link" davlatning holatga ko'rsatgich eng katta qo'shimchasini o'z ichiga olgan tomonidan tan olinmagan .

Shu ma'noda aytish mumkin ning barcha qo'shimchalarini aniq taniydi bu nisbatan uzunroq va undan ko'p emas . Bundan tashqari, quyidagilar mavjud:[15]

Teorema — Qo`shimcha bog`lovchilar a daraxt quyidagicha aniq belgilanishi mumkin:

  1. Vertices daraxtning chap kengaytmalariga to'g'ri keladi hammasidan pastki chiziqlar,
  2. Qirralar daraxt uchlari juftlarini bog'laydi , shu kabi va .

Qo'shimchali daraxtlar bilan bog'lanish

Trie, suffiks daraxti, DAWG va CDAWG qo'shimchalarining aloqasi

A "prefiks daraxti "(yoki" trie ") - bu ildizlarga yo'naltirilgan daraxt, unda yoylar belgilar bilan belgilanadigan tarzda tepaliksiz bo'ladi bunday daraxtda bir xil belgi bilan belgilangan ikkita chiqadigan yoy bor. Uchlikdagi ba'zi tepaliklar oxirgi deb belgilanadi. Trie, uning ildizidan to oxirgi tepaliklariga yo'llar bilan aniqlangan so'zlar to'plamini tan oladi deyiladi. Shunday qilib, agar siz uning ildizini boshlang'ich tepalik deb bilsangiz, prefiks daraxtlari - bu aniqlangan cheklangan avtomatlarning o'ziga xos turi.[16] So'zning "trie qo'shimchasi" uning qo'shimchalar to'plamini tan oladigan prefiks daraxti. "A daraxt qo'shimchasi "bu siqish protsedurasi orqali trie qo'shimchasidan olingan daraxt bo'lib, uning natijasida keyingi qirralar birlashtiriladi daraja ular orasidagi tepalik ikkitaga teng.[15]

Uning ta'rifiga ko'ra, qo'shimchali avtomat orqali olish mumkin minimallashtirish trie qo`shimchasining. Ko'rsatilgan bo'lishi mumkinki, siqilgan qo'shimchali avtomat ham qo'shimchali daraxtni minimallashtirish yo'li bilan (agar bitta qo'shiqchining har bir satrini alfavitdan qat'iy belgi deb hisoblasa) va avtomatik qo'shimchani siqish orqali olinadi.[17] Bundan tashqari, shu qatorning qo'shimchasi daraxti va avtomatika qo'shimchasi orasidagi bog'lanish ham mavjud. va teskari qatorning qo'shimchasi daraxti .[18]

Xuddi shu tarzda, o'ng kontekstga "chap kontekst" kiritilishi mumkin. , "o'ng kengaytmalar" bilan bir xil chap kontekstga ega bo'lgan eng uzun satrga mos keladi va ekvivalentlik munosabati . Agar kimdir tilga nisbatan to'g'ri kengaytmalarni ko'rib chiqsa "prefikslar" qatori olinishi mumkin:[15]

Teorema — Ipning qo'shimchali daraxti quyidagi tarzda aniq belgilanishi mumkin:

  • Vertices daraxtning o'ng kengaytmalariga to'g'ri keladi hammasidan pastki chiziqlar,
  • Qirralar uchliklarga to'g'ri keladi shu kabi va .

Bu erda uchlik ning chekkasi borligini anglatadi ga ip bilan ustiga yozilgan

, bu mag'lubiyatning bog'lanish daraxtini bildiradi va ipning qo'shimchasi daraxti izomorfik:[18]

"Abbcbc" va "cbcbba" so'zlarining qo'shimchali tuzilmalari

Chap kengaytmalarga o'xshab, o'ng kengaytmalar uchun quyidagi lemma mavjud:[15]

Teorema — Ipning o'ng kengaytmasi sifatida ifodalanishi mumkin , qayerda har qanday voqea sodir bo'lgan eng uzun so'zdir yilda muvaffaqiyatli bo'ladi .

Hajmi

Ipning qo'shimchali avtomati uzunlik eng ko'pi bor davlatlar va ko'pi bilan o'tish. Ushbu chegaralarga iplar orqali erishiladi va mos ravishda.[13] Buni qat'iyroq tarzda shakllantirish mumkin qayerda va avtomatik ravishda o'tish va holatlarning raqamlari mos ravishda.[14]

Maksimal qo'shimchali avtomatlar

Qurilish

Dastlab avtomat faqat bo'sh so'zga mos keladigan bitta holatdan iborat bo'ladi, so'ngra satrning belgilariga birma-bir qo'shiladi va avtomat har qadamda bosqichma-bosqich tiklanadi.[19]

Shtat yangilanishlari

Ipga yangi belgi qo'shilgandan so'ng, ba'zi tenglik sinflari o'zgartiriladi. Ruxsat bering ning to'g'ri konteksti bo'lishi tiliga nisbatan qo'shimchalar. Keyin o'tish ga keyin qo'shiladi lemma bilan belgilanadi:[14]

Teorema — Ruxsat bering ba'zi so'zlar tugadi va ushbu alifbodan biron bir belgi bo'ling. Keyin o'rtasida quyidagi yozishmalar mavjud va :

  • agar ning qo`shimchasidir ;
  • aks holda.

Qo'shgandan keyin joriy so'zga ning to'g'ri konteksti faqat agar sezilarli darajada o'zgarishi mumkin ning qo`shimchasidir . Bu ekvivalentlik munosabatini anglatadi a takomillashtirish ning . Boshqacha qilib aytganda, agar , keyin . Yangi belgi qo'shilgandan so'ng ko'pi bilan ikkita ekvivalentlik sinfi bo'linadi va ularning har biri eng ko'p ikkita yangi sinfga bo'linishi mumkin. Birinchidan, mos keladigan ekvivalentlik sinfi bo'sh to'g'ri kontekst har doim ikkita tenglik sinfiga bo'linadi, ulardan biri mos keladi o'zi va ega to'g'ri kontekst sifatida. Ushbu yangi ekvivalentlik sinfi to'liq o'z ichiga oladi va unda bo'lmagan barcha qo'shimchalar , chunki bunday so'zlarning to'g'ri konteksti oldin bo'sh bo'lgan va hozirda faqat bo'sh so'zni o'z ichiga olgan.[14]

Avtomat qo`shimchasi holatlari va qo`shimcha daraxti tepalari o`rtasidagi yozishmalarni hisobga olib, yangi belgi qo`shilgandan so`ng, ehtimol, bo`linishi mumkin bo`lgan ikkinchi holatni topish mumkin. Dan o'tish ga dan o'tishga mos keladi ga teskari qatorda. Qo'shimcha daraxtlari jihatidan u eng uzun qo'shimchaning kiritilishiga to'g'ri keladi qo'shimchasi daraxtiga . Ushbu qo'shimchadan so'ng eng ko'p ikkita yangi tepalik paydo bo'lishi mumkin: ulardan bittasi mos keladi , ikkinchisi to'g'ridan-to'g'ri ajdodiga to'g'ri keladi, agar dallanma mavjud bo'lsa. Avtomatik qo'shimchalarga qaytish, demak, birinchi yangi holat taniydi ikkinchisi (agar ikkinchi yangi holat bo'lsa) uning qo'shimchasini bog'laydi. Buni lemma deb aytish mumkin:[14]

Teorema — Ruxsat bering , biron bir so'z va belgi bo'ling . Shuningdek, ruxsat bering ning eng uzun qo'shimchasi bo'ling ichida sodir bo'lgan va ruxsat bering . Keyin har qanday pastki chiziqlar uchun ning u ushlab turadi:

  • Agar va , keyin ;
  • Agar va , keyin ;
  • Agar va , keyin .

Bu shuni anglatadiki, agar (masalan, qachon sodir bo'lmagan umuman va ), keyin faqat bo'sh o'ng kontekstga mos keladigan ekvivalentlik sinfi bo'linadi.[14]

Qo'shimchalar bilan bir qatorda avtomatning oxirgi holatlarini aniqlash uchun ham zarur. Tuzilish xususiyatlaridan kelib chiqadiki, so'zning barcha qo'shimchalari tomonidan tan olingan ba'zi tepalik tomonidan tanilgan qo'shimchali yo'l ning . Masalan, uzunligi kattaroq qo'shimchalar kechgacha yotish , uzunligi katta bo'lgan qo'shimchalar lekin kattaroq emas kechgacha yotish va hokazo. Shunday qilib, agar davlat tan olsa bilan belgilanadi , keyin barcha yakuniy holatlar (ya'ni, ning qo'shimchalarini tanib olish) ) ketma-ketlikni shakllantirish .[19]

O'tishlar va qo'shimchalarning havolalari yangilanadi

Belgidan keyin qo'shiladi Avtomatik qo'shimchaning yangi holatlari mavjud va . Qo'shimchadan havola boradi va dan u ketadi . So'zlar ichida sodir bo'ladi faqat uning qo'shimchalari sifatida, shuning uchun hech qanday o'tishlar bo'lmasligi kerak unga o'tish esa qo'shimchalaridan o'tishi kerak kamida uzunligi bor va belgi bilan belgilanadi . Shtat ning pastki to'plami bilan hosil qilingan Shunday qilib, dan o'tish dan bir xil bo'lishi kerak . Ayni paytda, o'tish davri qo'shimchalaridan o'tish kerak uzunligidan kamroq va hech bo'lmaganda , chunki bunday o'tishlarga olib keldi oldin va ushbu holatning ajratib olingan qismiga to'g'ri keladi. Ushbu qo'shimchalarga mos keladigan holatlar uchun qo'shimchaning bog'lanish yo'lini bosib o'tish yo'li bilan aniqlanishi mumkin .[19]

So'z uchun avtomat qo'shimchasini qurish abbcbc 
∅ → a
Bitta harf SA.svgBitta harf SA.svg
Birinchi belgi qo'shilgandan so'ng, avtomat qo'shimchasida faqat bitta holat hosil bo'ladi.Xuddi shunday, qo'shimchali daraxtga faqat bitta barg qo'shiladi.
a → ab
Ab SA.svgBa ST.svg
Oldingi barcha so'nggi holatlardan yangi o'tish bosqichlari tuzilgan b ilgari paydo bo'lmagan.Xuddi shu sababga ko'ra qo'shimchali daraxtning ildiziga yana bir barg qo'shiladi.
ab → abb
Abb SA.svgBba ST.svg
Shtat 2 so'zlarni taniydi ab va b, lekin faqat b yangi qo'shimchadir, shuning uchun bu so'z 4-holatga ajratilgan.Qo'shimcha daraxtda u vertikal 2 ga olib boruvchi qirralarning bo'linishiga to'g'ri keladi.
abb → abbc
Abbc SA.svgCbba ST.svg
Belgilar v birinchi marta sodir bo'ladi, shuning uchun o'tishlar avvalgi barcha so'nggi holatlardan olinadi.Teskari satrdagi qo'shimchali daraxtning ildiziga yana bir yaproq qo'shilgan.
abbc → abbcb
Abbcb SA.svgBcbba ST.svg
4-holat yagona so'zdan iborat b, bu qo'shimchadir, shuning uchun davlat bo'linmaydi.Shunga mos ravishda yangi barg 4-chi tepaga qo'shimchali daraxtga osib qo'yilgan.
abbcb → abbcbc
Suffix Automaton extension.svgSuffix Tree extension.svg
Shtat 5 so'zlarni taniydi abbc, bbc, mil va v, lekin faqat oxirgi ikkitasi yangi so'zning qo'shimchalari, shuning uchun ular yangi holatga ajratilgan 8.Shunga mos ravishda, 5-vertikalga olib boruvchi chekka bo'linib, qirning o'rtasiga 8-vertikal qo'yiladi.

Qurilish algoritmi

Yuqoridagi nazariy natijalar xarakterga ega bo'lgan quyidagi algoritmga olib keladi va avtomat qo'shimchasini qayta tiklaydi avtomat qo'shimchasiga :[19]

  1. So'zga mos keladigan holat sifatida saqlanadi ;
  2. Keyin qo'shiladi, oldingi qiymati o'zgaruvchida saqlanadi va o'zi mos keladigan yangi holatga o'tkaziladi ;
  3. Qo'shimchalariga mos keladigan holatlar ga o'tish bilan yangilanadi . Buni amalga oshirish uchun o'tish kerak , allaqachon o'tish davriga ega bo'lgan davlat mavjud bo'lguncha ;
  4. Yuqorida aytib o'tilgan tsikl tugagandan so'ng, uchta holat mavjud:
    1. Agar qo'shimchadagi yo'lda hech bir davlat o'tishga ega bo'lmasa , keyin hech qachon sodir bo'lmagan oldin va -dan qo'shimchasi olib kelishi kerak ;
    2. Agar o'tish topiladi va davlatdan olib keladi davlatga , shu kabi , keyin bo'linishi shart emas va u -ning qo'shimchasi ;
    3. Agar o'tish topilgan bo'lsa, lekin , keyin so'zlar maksimal uzunlikka ega yangi "klon" holatiga ajratilishi kerak ;
  5. Agar avvalgi qadam yaratish bilan yakunlangan bo'lsa , undan o'tish va uning qo'shimchasi havolasi quyidagilarni nusxalashi kerak , xuddi shu paytni o'zida ikkalasining ham umumiy qo`shimcha bog`lovchisi bo`lib tayinlangan va ;
  6. O'tkazish oldin, lekin eng ko'p uzunlikdagi so'zlarga mos edi ga yo'naltiriladi . Buning uchun kishi qo'shimchasining yo'lidan o'tishni davom ettiradi qadar davlat shunday o'tish davri topilgunga qadar undan olib kelmaydi .

Barcha protsedura quyidagi psevdo-kod bilan tavsiflanadi:[19]

funktsiya add_letter (x):    aniqlang p = oxirgi    tayinlamoq last = new_state ()    tayinlamoq len (oxirgi) = len (p) + 1    esa δ (p, x) aniqlanmagan: tayinlamoq δ (p, x) = oxirgi, p = havola (p)    aniqlang q = δ (p, x)    agar q = oxirgi:        tayinlamoq havola (oxirgi) = q0    boshqa bo'lsa len (q) = len (p) + 1:        tayinlamoq havola (oxirgi) = q    boshqa:        aniqlang cl = new_state ()        tayinlamoq len (cl) = len (p) + 1        tayinlamoq δ (cl) = δ (q), havola (cl) = havola (q)        tayinlamoq havola (oxirgi) = havola (q) = cl        esa δ (p, x) = q:            tayinlamoq δ (p, x) = cl, p = havola (p)

Bu yerda avtomatning dastlabki holati va bu uchun yangi holatni yaratadigan funktsiya. Bu taxmin qilinmoqda , , va global o'zgaruvchilar sifatida saqlanadi.[19]

Murakkablik

Algoritmning murakkabligi avtomatning o'tishini saqlash uchun ishlatiladigan asosiy tuzilishga qarab farq qilishi mumkin. U amalga oshirilishi mumkin bilan xotira usti yoki ichida bilan agar xotira ajratish amalga oshirilgan deb hisoblasa, xotira ustuni . Bunday murakkablikni olish uchun usullaridan foydalanish kerak amortizatsiya qilingan tahlil. Ning qiymati tsiklning har bir takrorlanishi bilan qat'iyan kamayadi, shu bilan birga keyingi davrning birinchi takrorlanishidan keyingina ko'payishi mumkin. add_letter qo'ng'iroq qiling. Ning umumiy qiymati hech qachon oshmaydi va u butunlay murakkabligini ko'rsatadigan yangi harflarni qo'shish takrorlanishi orasida faqat bittaga ko'payadi. Ikkinchi tsiklning chiziqliligi shunga o'xshash tarzda ko'rsatilgan.[19]

Umumlashtirish

Avtomat qo'shimchasi boshqa qo'shimchalar tuzilmalari va bilan chambarchas bog'liq pastki indekslar. Muayyan mag'lubiyatning qo'shimchasi avtomati berilgan bo'lsa, chiziqli vaqt ichida ixchamlash va rekursiv o'tish orqali uning qo'shimchasi daraxtini qurish mumkin.[20] Avtomatik qo'shimchasini almashtirish uchun har ikki yo'nalishda ham shunga o'xshash transformatsiyalar mumkin va teskari qatorning qo'shimchasi daraxti .[18] Bundan tashqari, trie tomonidan berilgan qatorlar uchun avtomat qurish uchun bir nechta umumlashmalar ishlab chiqilgan,[8] ixcham qo'shimchani avtomatlashtirish (CDAWG),[7] avtomat tuzilishini toymasin oynada saqlash uchun,[21] va simvolning boshiga ham, oxiriga ham belgilar kiritilishini qo'llab-quvvatlab, uni ikki tomonlama usulda qurish.[22]

Siqilgan qo'shimchali avtomat

Yuqorida aytib o'tilganidek, siqilgan qo'shimchali avtomat oddiy qo'shimchali avtomatning siqilishi (yakuniy bo'lmagan va to'liq bitta chiqadigan kamonga ega bo'lgan holatlarni olib tashlash orqali) va qo'shimchali daraxtni minimallashtirish orqali olinadi. Odatiy qo'shimchali avtomat singari, siqilgan qo'shimchali avtomat holatlari aniq tarzda aniqlanishi mumkin. Ikki tomonlama kengaytma bir so'z bilan eng uzun so'z , shunday qilib, har bir voqea yilda oldin va muvaffaqiyat qozondi . Chap va o'ng kengaytmalar bo'yicha bu ikki tomonlama kengaytma o'ng kengaytmaning chap kengaytmasi yoki unga teng keladigan chap kengaytmaning o'ng kengaytmasi, ya'ni . Siqilgan avtomat ikki tomonlama kengaytmalar bo'yicha quyidagicha aniqlanadi:[15]

Teorema — So'zning ixcham qo'shimchasi avtomati juftlik bilan belgilanadi , qaerda:

  • avtomat holatlarning to'plami;
  • avtomat o'tishlar to'plamidir.

Ikki tomonlama kengaytmalar ekvivalentlik munosabatini keltirib chiqaradi bu xuddi shu siqilgan avtomatning holati bilan tanilgan so'zlar to'plamini belgilaydi. Ushbu ekvivalentlik munosabati a o'tish davri yopilishi bilan belgilanadigan munosabat , bu siqilgan avtomat yordamida ikkala qo'shimchali daraxt tepalari orqali tenglashtiruvchi qo'shimchalar yordamida olinishi mumkinligini ta'kidlaydi munosabati (qo`shimcha daraxtini minimallashtirish) va yopishtiruvchi qo`shimchani avtomat holatlarini orqali teng munosabat (avtomat qo`shimchasini ixchamlashtirish).[23] Agar so'zlar bo'lsa va bir xil to'g'ri kengaytmalar va so'zlarga ega va bir xil chap kengaytmalarga ega bo'ling, so'ngra barcha satrlarni yig'ing , va bir xil ikki tomonlama kengaytmalarga ega. Shu bilan birga, na chap va na o'ng kengaytmalar bo'lishi mumkin va mos keladi. Misol tariqasida, kimdir olishi mumkin , va chap va o'ng kengaytmalari quyidagicha: , lekin va . Aytish joizki, bir tomonlama kengaytmalarning ekvivalentlik munosabatlari ba'zi bir uzluksiz prefikslar yoki qo'shimchalar zanjiri tomonidan shakllangan bo'lsa, ikki tomonlama kengaytmalar ekvivalentlik munosabatlari ancha murakkab va bitta aniq xulosaga kelish mumkin bo'lgan narsa shu ikki tomonlama kengaytma bor pastki chiziqlar bir xil ikki tomonlama kengaytmaga ega bo'lgan eng uzun mag'lubiyat, lekin hatto ularning umumiy bo'lmagan bo'sh satrlari bo'lmasligi mumkin. Ushbu munosabat uchun ekvivalentlik sinflarining umumiy soni oshmaydi bu mag'lubiyatning uzunligiga ega bo'lgan ixcham qo'shimchali avtomat degan ma'noni anglatadi eng ko'pi bor davlatlar. Bunday avtomatdagi o'tish miqdori ko'pi bilan .[15]

Bir nechta satrlarning qo'shimchali avtomati

Bir qator so'zlarni ko'rib chiqing . To'plamdan barcha so'zlarning qo'shimchalari bilan hosil bo'lgan tilni taniy oladigan avtomat qo'shimchasini umumlashtirishni qurish mumkin. Bunday avtomatdagi holatlar soni va o'tish davri cheklovlari bitta so'zli avtomatnikiga o'xshab qoladi, agar siz qo'ysangiz .[23] Algoritm o'rniga bitta so'zli avtomat qurishga o'xshaydi, faqat o'rniga holati, funktsiyasi add_letter so'zga mos keladigan holat bilan ishlaydi so'zlar to'plamidan o'tishni taxmin qilish to'plamga .[24][25]

Ushbu g'oya quyidagi holatlarda yanada umumlashtiriladi aniq berilmagan, aksincha a tomonidan berilgan prefiks daraxti bilan tepaliklar. Mohri va boshq. bunday avtomat eng ko'p bo'lishini ko'rsatdi va uning o'lchamidan chiziqli vaqt ichida qurilishi mumkin. Shu bilan birga, bunday avtomatdagi o'tish soni yetishi mumkin , masalan, so'zlar to'plami uchun alifbo ustida ishchilarning umumiy uzunligi tengdir , mos keladigan trie qo'shimchasidagi tepalar soni tengdir va mos keladigan qo'shimchali avtomat hosil bo'ladi davlatlar va o'tish. Mohri tomonidan taklif qilingan algoritm asosan bir nechta satrlarning avtomatini yaratish uchun umumiy algoritmni takrorlaydi, lekin so'zlarni birma-bir oshirish o'rniga, bu uchlikni a kenglik bo'yicha birinchi qidiruv buyurtma qiling va yangi belgilarni kesib o'tishda moslang, bu amortizatsiya qilingan chiziqli murakkablikni kafolatlaydi.[26]

Sürgülü oyna

Biroz siqishni algoritmlari, kabi LZ77 va RLE may benefit from storing suffix automaton or similar structure not for the whole string but for only last its characters while the string is updated. This is because compressing data is usually expressively large and using memory is undesirable. In 1985, Janet Blumer developed an algorithm to maintain a suffix automaton on a sliding window of size yilda worst-case and on average, assuming characters are distributed independently and bir xilda. She also showed complexity cannot be improved: if one considers words construed as a concatenation of several words, where , then the number of states for the window of size would frequently change with jumps of order , which renders even theoretical improvement of for regular suffix automata impossible.[27]

The same should be true for the suffix tree because its vertices correspond to states of the suffix automaton of the reversed string but this problem may be resolved by not explicitly storing every vertex corresponding to the suffix of the whole string, thus only storing vertices with at least two out-going edges. A variation of McCreight's suffix tree construction algorithm for this task was suggested in 1989 by Edward Fiala and Daniel Greene;[28] several years later a similar result was obtained with the variation of Ukkonen algoritmi by Jesper Larsson.[29][30] The existence of such an algorithm, for compacted suffix automaton that absorbs some properties of both suffix trees and suffix automata, was an open question for a long time until it was discovered by Martin Senft and Tomasz Dvorak in 2008, that it is impossible if the alphabet's size is at least two.[31]

One way to overcome this obstacle is to allow window width to vary a bit while staying . It may be achieved by an approximate algorithm suggested by Inenaga et al. in 2004. The window for which suffix automaton is built in this algorithm is not guaranteed to be of length but it is guaranteed to be at least va ko'pi bilan while providing linear overall complexity of the algorithm.[32]

Ilovalar

Suffix automaton of the string may be used to solve such problems as:[33][34]

  • Counting the number of distinct substrings of yilda on-line,
  • Finding the longest substring of occurring at least twice in ,
  • Finding the longest common substring of va yilda ,
  • Counting the number of occurrences of yilda yilda ,
  • Finding all occurrences of yilda yilda , qayerda is the number of occurrences.

Bu erda taxmin qilinmoqda is given on the input after suffix automaton of qurilgan.[33]

Suffix automata are also used in data compression,[35] music retrieval[36][37] and matching on genome sequences.[38]

Adabiyotlar

Bibliografiya

Tashqi havolalar