Qoidalarga asoslangan mashina tarjimasi - Rule-based machine translation

Qoidalarga asoslangan mashina tarjimasi (RBMT; MT ning "Klassik yondashuvi") mashina tarjimasi asoslangan tizimlar lingvistik ma'lumotlar asosan olingan (bir tilli, ikki tilli yoki ko'p tilli) manba va maqsadli tillar to'g'risida lug'atlar va grammatika har bir tilning asosiy semantik, morfologik va sintaktik qonuniyatlarini o'z ichiga olgan holda. Kirish jumlalariga ega bo'lgan (ba'zi bir manba tillarida), RBMT tizimi ularni jumlalarni (ba'zi maqsadli tillarda) morfologik, sintaktik va semantik tahlil aniq tarjima vazifasini bajarishda ishtirok etadigan manba va maqsadli tillarning.

Tarix

Birinchi RBMT tizimlari 1970 yillarning boshlarida ishlab chiqilgan. Ushbu evolyutsiyaning eng muhim bosqichlari quyidagi RBMT tizimlarining paydo bo'lishi edi:

Bugungi kunda boshqa keng tarqalgan RBMT tizimlariga quyidagilar kiradi:

RBMT turlari

Qoidalarga asoslangan mashinalarni tarjima qilish tizimlarining uch xil turi mavjud:

  1. To'g'ridan-to'g'ri tizimlar (Lug'atga asoslangan mashina tarjimasi ) asosiy qoidalar bilan chiqish uchun xaritani kiritish.
  2. RBMT tizimlarini uzatish (Transfer asosida mashina tarjimasi ) morfologik va sintaktik tahlillardan foydalanish.
  3. Tillararo RBMT tizimlari (Interlingua ) mavhum ma'nodan foydalaning.[1][2]

RBMT tizimlarini, shuningdek, Mashinaviy tarjimaning namunaviy tizimlariga qarama-qarshi tizimlar sifatida tavsiflash mumkin (Namuna asosidagi mashina tarjimasi ), Holbuki Gibrid Mashinalar Tarjimalari Tizimlari RBMT-dan olingan ko'plab printsiplardan foydalanadi.

Asosiy tamoyillar

RBMT tizimlarining asosiy yondashuvi berilgan kirish jumlaning tuzilishini talab qilingan chiqish jumlasining tuzilishi bilan bog'lashga asoslangan bo'lib, ularning o'ziga xos ma'nosini saqlab qoladi. Quyidagi misol RBMT ning umumiy ramkasini aks ettirishi mumkin:

Qizcha olma yeydi. Manba tili = Ingliz tili; Talab qilingan maqsadli til = nemis tili

Ushbu inglizcha jumlaning nemis tiliga tarjimasini olish uchun minimal zarur:

  1. Har bir inglizcha so'zni mos nemischa so'zga moslashtiradigan lug'at.
  2. Muntazam inglizcha jumla tuzilishini ifodalovchi qoidalar.
  3. Muntazam nemis jumla tuzilishini ifodalovchi qoidalar.

Va nihoyat, biz ushbu ikkita tuzilmani bir-biriga bog'laydigan qoidalarga muhtojmiz.

Shunga ko'ra, biz quyidagilarni aytishimiz mumkin tarjima bosqichlari:

1-chi: har bir manba so'zning asosiy qismi haqida ma'lumot olish:
a = indef.arta; qiz = ism; eats = fe'l; an = indef.article; olma = ism
2-chi: "ovqatlanish" fe'liga oid sintaktik ma'lumotlarni olish:
NP-eat-NP; bu erda: ovqatlaning - Hozirgi sodda, uchinchi shaxs singular, faol ovoz
3-chi: manba jumlasini tahlil qilish:
(Olma NP) = eyish ob'ekti

Ko‘pincha manba gapning sintaktik tarkibiga kirish va uni maqsadli jumla tarkibiga solish uchun faqat qisman tahlil qilish kifoya.

4-chi: inglizcha so'zlarni nemis tiliga tarjima qiling
a (category = indef.article) => ein (category = indef.article)
qiz (toifa = ism) => Mädchen (toifa = ism)
eb (toifa = fe'l) => essen (toifa = fe'l)
an (category = indef. article) => ein (category = indef.article)
olma (turkum = ism) => Apfel (turkum = ism)
5-chi: Lug'at yozuvlarini mos keladigan shakllarga solishtirish (yakuniy) avlod):
Qizcha olma yeydi. => Ein Mädchen - bu Apfel.

Komponentlar

RBMT tizimida quyidagilar mavjud:

  • a SL morfologik analizator - manba tilidagi so'zni tahlil qiladi va morfologik ma'lumot beradi;
  • a SL tahlilchisi - manba tilidagi jumlalarni tahlil qiladigan sintaksis analizatori;
  • a tarjimon - manba tilidagi so'zni maqsadli tilga tarjima qilish uchun ishlatiladi;
  • a TL morfologik generator - berilgan grammatika ma'lumotlari uchun maqsadga muvofiq til so'zlarining generatori sifatida ishlaydi;
  • a TL tahlilchisi - maqsadga muvofiq til jumlalarining bastakori sifatida ishlaydi;
  • Bir nechta lug'atlar - aniqrog'i kamida uchta lug'at:
a SL lug'ati - morfologik tahlil uchun manba tili morfologik analizatorga kerak,
a ikki tilli lug'at - tarjimon tomonidan manba tilidagi so'zlarni maqsadli tilga tarjima qilishda foydalaniladi,
a TL lug'ati - maqsadli til so'zlarini yaratish uchun maqsadli til morfologik generatoriga kerak.[3]

RBMT tizimi quyidagilardan foydalanadi:

  • a Manba grammatikasi kiruvchi gaplardan sintaktik konstruksiyalar yasaydigan kirish tili uchun;
  • a Manba leksikoni bu domendagi barcha ruxsat etilgan so'z boyliklarini o'zida mujassam etgan;
  • Manba xaritalash qoidalari manba tilidagi sintaktik boshlar va grammatik funktsiyalar interlingua tarkibidagi domen tushunchalari va semantik rollarga qanday mos kelishini ko'rsatadigan;
  • a Domen modeli/Ontologiya domen tushunchalari sinflarini belgilaydigan va har bir sinf uchun semantik rollarni to'ldiruvchini cheklaydigan;
  • Maqsadli xaritalash qoidalari interlingua ichidagi domen tushunchalari va semantik rollar sintaktik boshlarga va maqsadli tilda grammatik funktsiyalarga qanday bog'langanligini ko'rsatadigan;
  • a Maqsadli leksika har bir domen tushunchasi uchun mos maqsadli leksemalarni o'z ichiga olgan;
  • a Maqsadli grammatika maqsadli sintaktik konstruktsiyalarni chiziqli chiqish jumlalari sifatida amalga oshiradigan maqsadli til uchun.[4]

Afzalliklari

  • Yo'q ikki tilli matnlar talab qilinadi. Bu umumiy matnlari bo'lmagan, hatto raqamli ma'lumotlarga ega bo'lmagan tillar uchun tarjima tizimlarini yaratishga imkon beradi.
  • Domen mustaqil. Qoidalar odatda domendan mustaqil ravishda yoziladi, shuning uchun qoidalarning katta qismi har bir domenda "shunchaki ishlaydi" va har bir domen uchun bir nechta aniq holatlar uchun ular uchun yozilgan qoidalar kerak bo'lishi mumkin.
  • Sifatli shift yo'q. Har qanday xato maqsadli qoida bilan tuzatilishi mumkin, hatto qo'zg'atuvchi holat juda kam bo'lsa ham. Bu odatiy ravishda kamdan-kam uchraydigan shakllar yuvilib ketadigan statistik tizimlardan farq qiladi.
  • Umumiy nazorat. Barcha qoidalar qo'lda yozilganligi sababli, berilgan xato tizimga qaerga kirganini va nima uchun ekanligini aniq bilish uchun qoidalarga asoslangan tizimni osongina disk raskadrovka qilishingiz mumkin.
  • Qayta foydalanish mumkinligi. RBMT tizimlari odatda uzatish bosqichi va maqsadli til ishlab chiqaruvchisi bilan ta'minlangan kuchli manba tilini tahlil qilish asosida yaratilganligi sababli, manba tilini tahlil qilish va maqsad tilni yaratish qismlar bir nechta tarjima tizimlari o'rtasida taqsimlanishi mumkin, bu faqat uzatish bosqichini ixtisoslashtirilishini talab qiladi. Bundan tashqari, bitta til uchun manba tilini tahlil qilish yaqindan bog'liq bo'lgan til tahlilini boshlash uchun qayta ishlatilishi mumkin.

Kamchiliklar

  • Haqiqatan ham yaxshi lug'atlarning etarli emasligi. Yangi lug'atlarni yaratish qimmatga tushadi.
  • Ba'zi lingvistik ma'lumotlar hali ham qo'lda o'rnatilishi kerak.
  • Katta tizimlardagi qoidalar o'zaro ta'sirlari, noaniqlik va idiomatik iboralar bilan kurashish qiyin.
  • Yangi domenlarga moslashmaslik. Garchi RBMT tizimlari odatda yangi qoidalar yaratish va leksikonni kengaytirish va moslashtirish mexanizmini taqdim etsa-da, odatda o'zgarishlar juda qimmatga tushadi va natijalar ko'pincha o'z samarasini bermaydi.[5]

Adabiyotlar

  1. ^ Koehn, Filipp (2010). Statistik mashina tarjimasi. Kembrij: Kembrij universiteti matbuoti. p. 15. ISBN  9780521874151.
  2. ^ Nirenburg, Sergey (1989). "Bilimlarga asoslangan mashina tarjimasi". Mashina trandatsiyasi 4 (1989), 5 - 24. Kluwer Academic Publishers. 4 (1): 5–24. JSTOR  40008396.
  3. ^ Xettige, B .; Karunananda, A.S. (2011). "Sinxala mashinasiga tarjima qilish uchun ingliz tili grammatikasining hisoblash modeli". Rivojlanayotgan mintaqalar uchun AKT taraqqiyoti bo'yicha 2011 yilgi Xalqaro konferentsiya (ICTer). Rivojlanayotgan mintaqalar uchun AKT taraqqiyoti bo'yicha xalqaro konferentsiya - ICTer20 11: 026-031. 26-31 betlar. doi:10.1109 / ICTer.2011.6075022. ISBN  978-1-4577-1114-5. S2CID  45871137.
  4. ^ Lonsdeyl, Deryl; Mitamura, Teruko; Nayberg, Erik (1995). "Amaliy ma'lumotlarga asoslangan MT uchun katta leksikonlarni sotib olish". Mashina tarjimasi 9: 251-283. Kluwer Academic Publishers. 9 (3–4): 251–283. doi:10.1007 / BF00980580. S2CID  1106335.
  5. ^ Lagarda, A.-L .; Alabau, V .; Kasakuberta, F.; Silva, R .; Diaz-de-Liaño, E. (2009). "Qoidalarga asoslangan tarjima tizimining statistik post-tahriri" (PDF). NAACL HLT 2009 materiallari: qisqacha hujjatlar, 217–220 betlar, Boulder, Kolorado. Kompyuter tilshunosligi assotsiatsiyasi. Olingan 20 iyun 2012.

Adabiyot

  • Arnold, D.J. va boshq. (1993): Mashina tarjimasi: kirish qo'llanmasi
  • Xatchins, VJ (1986): Mashina tarjimasi: o'tmish, hozirgi, kelajak

Havolalar