Imlo taklifi - Spelling suggestion - Wikipedia

Imlo taklifi ko'pchilikning xususiyatidir kompyuter dasturlari noto'g'ri yozilgan bo'lishi mumkin bo'lgan so'zlarni oqilona almashtirishni taklif qilish uchun ishlatiladigan dasturlar.

Imlo taklifi xususiyatlari, odatda, kiritilgan Internet qidiruv tizimlari, matn protsessorlari, imlo tekshirgichlari, tibbiy transkripsiya, avtomatik so'rovlarni qayta o'zgartirish va chastota-jurnal statistikasi bo'yicha hisobot.

Algoritmlar

Har qanday imlo tekshiruvchisi maqsadli tildagi so'zlar haqida umumiy foydalanishda yoki maxsus ma'lumotlarga ega bo'lishi kerak (tibbiy lug'at kabi). Bu quyidagidan kelib chiqishi mumkin:

  • A lug'at barcha ma'lum so'zlardan.
  • A matn korpusi bu to'g'ri yozilganligi ma'lum bo'lgan odatdagi matnni o'z ichiga oladi.
  • Tez-tez noto'g'ri yozilgan so'zlar ro'yxati, xatolarni tuzatishlarga solishtirish.
  • Odam tomonidan kiritilgan matnlar jurnallari, masalan, ommabop qidiruv tizimi. Bu aslida a olomon manbasi korpus, ammo ba'zi bir imlo xatolari bo'lishi mumkin deb taxmin qilinadi. Ma'lumotlar odamlar imlo taklifini bosganida yoki ikkinchi, juda o'xshash so'rov o'tkazganda kiritilishi mumkin; bu noto'g'ri tuzilgan so'zlarni ishonchli tuzatishlar uchun kraudorsing xaritasini yaratadi.[1]

Tez-tez noto'g'ri yozilgan so'zlar ro'yxati, ehtimol ko'p so'zli iboralarni o'z ichiga olishi mumkin, kirish so'zlari yoki iboralarining birortasi keltirilganligini bilish uchun oddiygina murojaat qilish mumkin.

Noto'g'ri yozilishidan tuzatishlarigacha oldindan mavjud bo'lgan xaritalashsiz lug'atdan foydalanish uchun odatiy usul - bu hisoblash masofani tahrirlash kirish so'zi va lug'atdagi har qanday so'z o'rtasida. The Levenshteyn masofasi metrik "tahrirlash" ni bitta harfni qo'shish, o'chirish yoki almashtirish (boshqa harf bilan) deb hisoblaydi. The Damerau - Levenshteyn masofasi transpozitsiyalarni qo'shadi (qo'shni harflarni almashtirish). Kiritilgan so'zdan tahrirlash masofasi 1 bo'lgan lug'at so'zlari tuzatish sifatida qabul qilinadi, tahrir masofasi 2 kamroq bo'ladi va tahrir masofasi 3 ba'zida takliflarga kiritilgan, ba'zan esa e'tiborsiz qoldirilgan.

Matn korpusi ma'lum so'zlarning lug'ati sifatida umumlashtirilishi mumkin, har bir so'z uchun paydo bo'lish chastotasi mavjud. Bu imlo takliflarini saralash uchun ishlatilishi mumkin. Masalan, 1-tahrirlash masofasining bir nechta takliflari bo'lsa, korpusda tez-tez paydo bo'ladigan so'zlar kerakli tuzatish bo'lishi mumkin.

Ma'lum so'zlarning lug'ati juda katta bo'lganligi sababli, kiritilgan so'z va lug'atdagi har bir so'z o'rtasidagi tahrir masofasini hisoblash hisoblash intensiv va shu bilan nisbatan sekin.[2] Turli xil ma'lumotlar tuzilmalari kabi saqlashni qidirishni tezlashtirish uchun foydalanish mumkin BK daraxtlari.[3] Piter Norvig tomonidan qabul qilingan tezroq yondashuv[4] barchasini yaratadi almashtirishlar barcha mumkin bo'lgan tahrirlarning kirish so'zidan. Uzunlik so'zi uchun n va kattalik alifbosi a, tahrirlash masofasi 1 uchun eng ko'pi bor n o'chirish, n-1 transpozitsiyalar, a * n o'zgartirishlar va a * (n + 1) qo'shimchalar.[5] Ichidagi faqat 26 ta harfdan foydalanish Ingliz alifbosi, bu faqat ishlab chiqaradi 54 * n + 25 lug'at izlash, har qanday dublikatlarni olib tashlash (bu so'zdagi aniq harflarga bog'liq). Bu yuz ming so'zlardan iborat lug'at bilan taqqoslaganda nisbatan kichik. Biroq, 2 va undan katta masofani tahrirlash uchun o'nlab yoki yuz minglab qidiruv talab qilinishi mumkin. SymSpell nomi bilan tanilgan Wolf Garbe tomonidan qabul qilingan yana bir yangilik[5] ("simmetriya" singari "sym") lug'at bo'yicha bir xil o'chirish permutations hisoblangan bo'lsa, kirish so'zlari uchun faqat o'chirishni o'z ichiga olgan almashtirishlarni yaratish zarurligini hisobga olib, kirish vaqtini hisoblashni tezlashtiradi.

Hozirgacha tasvirlangan algoritmlar lug'atda bo'lmagan to'g'ri so'zlar bilan yaxshi ishlamaydi. Ingliz tilidagi noma'lum so'zlarning keng tarqalgan manbalari qo'shma so'zlar va burilishlar, kabi -s va -ing.[4] Ular algoritmik tarzda joylashtirilishi mumkin, ayniqsa lug'atda nutqning bir qismi.

Ushbu algoritmlar, shuningdek, berilgan masofadagi barcha xatolar bir xil ehtimolga ega deb taxmin qilishgan, bu to'g'ri emas. Imlo bilan bog'liq xatolar fonetik jihatdan qayerda Ingliz orfografiyasi fonetik emas, xuddi shu harfni takrorlaydigan yoki a-dagi qo'shni harflarni aralashtirib yuboradigan xatolar keng tarqalgan QWERTY klaviatura. Agar ma'lum bo'lgan imlo xatolari va tuzatishlarining katta to'plami mavjud bo'lsa, ushbu ma'lumotlar harflar juftligi va tahrirlash turlari uchun chastota jadvallarini yaratish uchun ishlatilishi mumkin; bu takliflarni aniqroq tartiblash uchun ishlatilishi mumkin.[4] Matnning qolgan qismiga nisbatan noto'g'ri shevada yozilgan so'zning tasodifga qaraganda tez-tez uchraydi, masalan. Amerika va ingliz ingliz tilidagi imlo farqlari.[4]

Bir vaqtning o'zida bir nechta so'zlarni hisobga olgan holda imlo takliflarini yanada aniqroq qilish mumkin.[4] Ko'p so'zli ketma-ketliklar ma'lum n-gramm (qayerda n bu ketma-ketlikdagi so'zlar soni). Ushbu va boshqa maqsadlar uchun n-grammdan iborat 5 ta so'zdan iborat juda katta ma'lumotlar bazasi Google tomonidan mavjud.[6]

Boshqalar esa katta hajmdagi ma'lumotlardan foydalanish bilan tajriba o'tkazdilar va chuqur o'rganish texnikasi (shakli mashinada o'rganish o'qitmoq asab tarmoqlari imlo tuzatishni amalga oshirish.[7][8]

Adabiyotlar

  1. ^ 101 qidirish - Google VP Engineering and CIO Duglas Merrill
  2. ^ Masofani tahrirlash
  3. ^ Jin ursin Algoritmlar, 1-qism: BK-daraxtlar
  4. ^ a b v d e Imlo tuzatuvchisi qanday yoziladi
  5. ^ a b 1000x tezroq imlo tuzatish algoritmi (2012)
  6. ^ Aleks Franz; Thorsten Brants (2006 yil 3-avgust). "Bizning barcha grammlarimiz sizga tegishli".
  7. ^ Chuqur imlo
  8. ^ Imlolarni tekshirish algoritmlari va texnikasi