Eng yaqin ip - Closest string

Yilda nazariy informatika, eng yaqin ip bu Qattiq-qattiq hisoblash muammosi,[1] bu kirish satrlari to'plamining geometrik markazini topishga harakat qiladi.

"Markaz" so'zini tushunish uchun ikkita tor orasidagi masofani aniqlash kerak. Odatda, bu muammo. Bilan o'rganiladi Hamming masofasi hayolda.

Rasmiy ta'rif

Rasmiy ravishda berilgan n uzunlik-m torlar s1, s2, ..., sn, eng yaqin mag'lubiyat muammosi yangi uzunlikni qidirmoqda -m mag'lubiyat s shu kabi d(s,smen) ≤ k Barcha uchun men, qayerda d belgisini bildiradi Hamming masofasi va qaerda k imkon qadar kichikroq.[2] A qaror muammosi eng yaqin satr muammosining versiyasi, ya'ni To'liq emas, o'rniga oladi k yana bir kirish sifatida va Hamming masofasida mag'lubiyat bor-yo'qligi haqida savollar k barcha kirish satrlari.[1]

Eng yaqin mag'lubiyat muammosi genericning maxsus holati sifatida qaralishi mumkin 1 markaz muammosi unda elementlar orasidagi masofalar Hamming masofasi yordamida o'lchanadi.

Motivatsiya

Yilda bioinformatika, eng yaqin satr muammosi - bu signallarni topish muammosining intensiv ravishda o'rganilgan tomoni DNK.

Soddalashtirish va ma'lumotlarni qisqartirish

Eng yaqin satr misollari muammo uchun muhim bo'lmagan ma'lumotlarni o'z ichiga olishi mumkin. Muayyan ma'noda, eng yaqin satrning odatiy kiritilishi muammoning qattiqligiga hissa qo'shmaydigan ma'lumotlarni o'z ichiga oladi. Masalan, agar ba'zi bir satrlarda belgi bo'lsa a, ammo hech birida belgi mavjud emas z, barchasini almashtirish as bilan zs aslida teng keladigan misolni keltirib chiqaradi, ya'ni: o'zgartirilgan misolning echimidan asl echimni tiklash mumkin va aksincha.

Kirishni normalizatsiya qilish

Uzunligi bir xil bo'lgan barcha kirish satrlari bir-birining ustiga yozilganda, ular matritsani hosil qiladi. Muayyan qator turlari, asosan, echimga bir xil ta'sir ko'rsatadi. Masalan, ustunni yozuvlar bilan almashtirish (a, a, b) boshqa ustun bilan (x, x, y) boshqa echim qatoriga olib kelishi mumkin, ammo hal qilinuvchanlikka ta'sir qila olmaydi, chunki ikkala ustun ham bir xil tuzilmani ifodalaydi, ya'ni. dastlabki ikkita yozuv teng, ammo uchinchisidan farq qiladi.

Kirish misoli bo'lishi mumkin normallashtirilgan har bir ustunda eng ko'p uchraydigan belgini almashtirish orqali a, ikkinchisida tez-tez uchraydigan belgi b, va hokazo. Normallashtirilgan misol uchun echim berilgan holda, asl nusxani har bir ustunda eritmaning belgilarini asl nusxasiga almashtirish orqali topish mumkin.

Ustunlarning tartibi muammoning qattiqligiga hissa qo'shmaydi. Bu shuni anglatadiki, agar biz barcha kirish satrlarini ma'lum bir m almashtirishga muvofiq o'zgartirsak va echim qatorini olsak s o'sha o'zgartirilgan misolga, keyin π−1(s) asl nusxaga echim bo'ladi.

Misol

Normallashtirilgan muammo uchun joy qidiring. Markaziy chiziq aaaa va aaab Hamming masofalariga mos ravishda 1,2,1 va 2,1,1 masofalarga olib keladi.

Uchta kirish satridan iborat misol berilgan uvwx, xuwvva xvwu. Buni quyidagi kabi matritsa sifatida yozish mumkin:

sizvwx
xsizwv
xvwsiz

Birinchi ustunda (siz, x, x). Sifatida x eng tez-tez paydo bo'ladigan belgi, biz uni almashtiramiz ava biz almashtiramiz siz, Ikkinchi eng tez-tez belgilar, tomonidan b, yangi birinchi ustunni olish (b, a, a). Ikkinchi ustunda (v, siz, v). Birinchi ustunga kelsak, v bilan almashtiriladi a va siz bilan almashtiriladi b, yangi ikkinchi ustunni olish (a, b, a). Xuddi shu narsani barcha ustunlar bilan bajarish normallashtirilgan misolni beradi

baaa
abab
aaav

Normallashtirish natijasida olingan ma'lumotlarning kamayishi

Kiritishni normalizatsiya qilish alifbo hajmini eng ko'p kirish satrlari soniga kamaytiradi. Bu ish vaqti alifbo hajmiga bog'liq bo'lgan algoritmlar uchun foydali bo'lishi mumkin.

Yaqinlik

Li va boshq. rivojlangan a polinom-vaqtni taxminiy sxemasi[3] katta yashirin konstantalar tufayli deyarli yaroqsiz.

Ruxsat etilgan parametrlarga yo'naltirilganlik

Eng yaqin satrni echish mumkin , qayerda k kirish satrlari soni, L barcha satrlarning uzunligi va d - bu yechim satridan istalgan kirish satrigacha kerakli maksimal masofa.[4]

Boshqa muammolar bilan aloqalar

Eng yaqin tor - bu umumiyroq bo'lgan maxsus holat eng yaqin substring bu juda qiyin bo'lgan muammo. Eng yaqin satr chiqadi belgilangan parametrlarni boshqarish mumkin bir nechta usulda eng yaqin pastki chiziq V [1] - qattiq ushbu parametrlarga nisbatan.

Adabiyotlar

  1. ^ a b Lanktot, J. Kevin; Li, Ming; Ma, bin; Vang, Shaojiu; Zhang, Louxin (2003), "Iplarni tanlash muammolarini farqlash", Axborot va hisoblash, 185 (1): 41–55, doi:10.1016 / S0890-5401 (03) 00057-9, JANOB  1994748
  2. ^ Bin Ma va Xiaming Sun (2008), "String va substring muammolari uchun yanada samarali algoritmlar" (PDF), Hisoblash molekulyar biologiyasidagi tadqiqotlar, LNCS, 4955, Springer, 396-409 betlar, doi:10.1007/978-3-540-78839-3_33, ISBN  978-3-540-78838-6CS1 maint: mualliflar parametridan foydalanadi (havola)
  3. ^ M. Li, B. Ma va L. Vang. (2002), "Eng yaqin tor va chiziq muammolari to'g'risida". (PDF), ACM jurnali, 49 (2): 157–171, arXiv:cs / 0002012, doi:10.1145/506147.506150CS1 maint: mualliflar parametridan foydalanadi (havola)
  4. ^ Jens Gramm, Rolf Nidermeyer va Piter Rossmanit (2003), "Eng yaqin simlar uchun turg'un parametrli algoritmlar va u bilan bog'liq muammolar", Algoritmika, 37: 25–42, CiteSeerX  10.1.1.61.736, doi:10.1007 / s00453-003-1028-3CS1 maint: mualliflar parametridan foydalanadi (havola)