Lemmatizatsiya - Lemmatisation

Lemmatizatsiya (yoki lemmatizatsiya) ichida tilshunoslik so'zning biriktirilgan shakllarini birlashtirib, ularni so'z bilan aniqlangan bitta element sifatida tahlil qilish mumkin. lemma, yoki lug'at shakli.[1]

Yilda hisoblash lingvistikasi, lemmatizatsiya - bu aniqlashning algoritmik jarayoni lemma mo'ljallangan ma'nosiga asoslangan so'zning. Aksincha poydevor, lemmatizatsiya maqsadni to'g'ri aniqlashga bog'liq nutqning bir qismi va so'zning jumlada, shuningdek kattaroq doiradagi ma'nosi kontekst qo'shni jumlalar yoki hatto butun hujjat kabi ushbu jumlani o'rab olish. Natijada, samarali rivojlanmoqda lemmatizatsiya algoritmlar - tadqiqotning ochiq sohasi.[2][3][4]

Tavsif

Ko'pgina tillarda so'zlar bir nechta mavjud egilgan shakllari. Masalan, ingliz tilida "yurish" fe'llari "yurish", "yurish", "yurish" yoki "yurish" kabi ko'rinishi mumkin. Lug'atni qidirish uchun "yurish" ning asosiy shakli "deb nomlanadi lemma so'z uchun. Asosiy shaklning nutq qismi bilan birikishi ko'pincha a leksema so'zning.

Lemmatizatsiya bilan chambarchas bog'liq poydevor. Farqi shundaki, stemmer bitta so'z bilan ishlaydi holda kontekstni bilish, shuning uchun nutq qismiga qarab har xil ma'noga ega so'zlarni ajratib bo'lmaydi. Biroq, stemmerlarni amalga oshirish odatda osonroq va tezroq ishlaydi. Kamaytirilgan "aniqlik" ba'zi ilovalar uchun ahamiyatsiz bo'lishi mumkin. Darhaqiqat, axborot qidirish tizimlarida foydalanilganda, stemming so'rovni yaxshilaydi aniqlikni eslang, yoki lemmatizatsiya bilan taqqoslaganda haqiqiy ijobiy ko'rsatkich. Shunga qaramay, stemming kamayadi aniqlik yoki bunday tizimlar uchun haqiqiy salbiy ko'rsatkich.[5]

Masalan; misol uchun:

  1. "Yaxshi" so'zi lemma sifatida "yaxshi" ga ega. Ushbu havolani stemming orqali o'tkazib yuborilgan, chunki lug'atni qidirishni talab qiladi.
  2. "Yurish" so'zi "yurish" so'zining asosiy shakli bo'lib, demak, bu ham kelib chiqishi, ham lemmatizatsiyasi bilan mos keladi.
  3. "Uchrashuv" so'zi kontekstga qarab otning asosiy shakli yoki fe'lning shakli bo'lishi mumkin ("uchrashish"); masalan, "bizning so'nggi uchrashuvimizda" yoki "Biz ertaga yana uchrashamiz". Stemmingdan farqli o'laroq, lemmatizatsiya kontekstga qarab to'g'ri lemmani tanlashga harakat qiladi.

Kabi hujjatlarni indeksatsiya qilish dasturi Lucene[6] so'zning bazaviy shaklini ma'no bilmasdan saqlashi mumkin, lekin faqat so'z shakllantirish grammatikasi qoidalarini hisobga olgan holda. So'zning o'zi yaroqli so'z bo'lmasligi mumkin: "dangasa", quyida keltirilgan misolda ko'rinib turibdiki, ko'plab stemmers tomonidan "dangasa" so'zi kelib chiqqan. Buning sababi shundaki, stemming maqsadi tegishli lemma hosil qilish emas - bu kontekstni bilishni talab qiladigan juda qiyin vazifadir. Stemming asosiy maqsadi - so'zning turli shakllarini bitta shaklga solishtirish.[7] Qoidaga asoslangan algoritm sifatida, faqat bir so'zning yozilishiga bog'liq bo'lib, masalan, "dangasalik" "dangasa" ga aylanganida, u "dangasa" bilan bir xil bo'lishiga ishonch hosil qilish uchun aniqlikni qurbon qiladi.

Algoritmlar

Lemmatizatsiya qilishning ahamiyatsiz usuli bu oddiy lug'atni qidirishdir. Bu to'g'ridan-to'g'ri egilgan shakllar uchun yaxshi ishlaydi, lekin a qoidalarga asoslangan tizim boshqa holatlar uchun kerak bo'ladi, masalan, uzoq muddatli tillarda qo'shma so'zlar. Bunday qoidalar qo'lda tayyorlangan bo'lishi yoki izohlangan korpusdan avtomatik ravishda o'rganilishi mumkin.

Amaliyotlar

Lemmatizatorlarning bir nechta holatlari mavjud:

Biotibbiyotda foydalaning

Nashr etilgan biotibbiyot adabiyotlarining morfologik tahlili foydali natijalar berishi mumkin. Biyomedikal matnni morfologik qayta ishlash biotibbiyot uchun ixtisoslashtirilgan lemmatizatsiya dasturi orqali samaraliroq bo'lishi va amaliy aniqligini oshirishi mumkin. ma'lumot olish vazifalar.[8]

Shuningdek qarang

Adabiyotlar

  1. ^ Kollinz ingliz lug'ati, "lemmatise" uchun yozuv
  2. ^ "WebBANC: oz sonli tillar uchun veb-foydalanuvchi izohlaridan mahoratga boy izohli korporatsiyalar yaratish" (PDF).
  3. ^ Myuller, Tomas; Kotterell, Rayan; Freyzer, Aleksandr; Shutze, Ginrix. "LEMMING bilan birgalikda lemmatizatsiya va morfologik taglash" (PDF).
  4. ^ Bergmanis, Toms; Goldwater, Sharon. "Lematus bilan kontekstli sezgir asabiy lemmatizatsiya" (PDF).
  5. ^ Manning, Kristofer D.; Raghavan, Prabhakar; Shutze, Ginrix. "Axborot olish bilan tanishish". Kembrij universiteti matbuoti.
  6. ^ "Lucene Snowball". Apache loyihasi.
  7. ^ Martin Porter. "Porter Stemmer".
  8. ^ Liu, X.; Christianen, T .; Baumgartner, V. A .; Verspoor, K. (2012). "BioLemmatizer: biomedikal matnni morfologik qayta ishlash uchun lemmatizatsiya vositasi". Biomedikal semantika jurnali. 3: 3. doi:10.1186/2041-1480-3-3. PMC  3359276. PMID  22464129.

Tashqi havolalar