Leksik belgilash asoslari - Lexical Markup Framework

Til resurslarini boshqarish - leksik belgilar tizimini yaratish (LMF; ISO 24613: 2008), ISO hisoblanadi Xalqaro standartlashtirish tashkiloti ISO / TC37 uchun standart tabiiy tilni qayta ishlash (NLP) va mashinada o'qiladigan lug'at (MRD) leksikonlar.[1]Kapsam standartlashtirish ko'p tilli aloqa sharoitida til resurslariga oid printsiplar va usullar.

Maqsadlar

LMF-ning maqsadlari yaratish va ulardan foydalanishning umumiy modelini taqdim etishdir leksik manbalar, ushbu manbalar o'rtasida va ular o'rtasida ma'lumotlar almashinuvini boshqarish va keng ko'lamli elektron resurslarni shakllantirish uchun ko'p sonli individual elektron resurslarni birlashtirishga imkon berish.

LMFning individual instansiyalari turlariga bir tilli, ikki tilli yoki ko'p tilli leksik resurslarni kiritish mumkin. Xuddi shu xususiyatlar ham kichik, ham katta leksikalar uchun, ham oddiy, ham murakkab leksikalar uchun, ham yozma va ham og'zaki leksik tasvirlar uchun ishlatilishi kerak. Ta'riflar quyidagilardan iborat morfologiya, sintaksis, hisoblash semantikasi ga kompyuter yordamida tarjima qilish. Yopilgan tillar bilan cheklanmagan Evropa tillari lekin barchasini qamrab oladi tabiiy tillar. Maqsadli NLP oralig'i ilovalar cheklanmagan. LMF ko'pgina leksikonlarni, shu jumladan, vakillik qila oladi WordNet, EDR va PAROLE leksikalari.

Tarix

Ilgari, leksikani standartlashtirish GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE va ISLE kabi qator loyihalar tomonidan o'rganilgan va ishlab chiqilgan. Keyin ISO / TC37 Milliy delegatsiyalar NLP va leksikon vakolatiga bag'ishlangan me'yorlarni ko'rib chiqishga qaror qildilar. LMF bo'yicha ish 2003 yil yozida AQSh delegatsiyasi tomonidan yangi ish bo'yicha taklif bilan boshlandi. 2003 yil kuzida Frantsiya delegatsiyasi a uchun texnik taklifni chiqardi ma'lumotlar modeli NLP leksikonlariga bag'ishlangan. 2004 yil boshida ISO / TC37 qo'mitasi Nikoletta Kalzolari bilan umumiy ISO loyihasini tuzishga qaror qildi (CNR -ILC Italy) konventor sifatida va Gil Frankopoulo (Tagmatica France) va Monte George (ANSI LMFni ishlab chiqishdagi birinchi qadam mavjud leksikonlarning umumiy xususiyatlariga asoslanib umumiy asoslarni ishlab chiqish va ushbu leksikalarning tarkibiy qismlarini tavsiflovchi izchil terminologiyani ishlab chiqish edi. Keyingi qadam barcha leksikonlarni batafsilroq aks ettiradigan keng qamrovli modelning haqiqiy dizayni edi. 60 ta mutaxassisdan iborat katta guruh NMP leksikalarining ko'p turlarini qamrab oladigan LMF uchun keng talablarni taqdim etdi. LMF muharrirlari eng yaxshi echimlarni aniqlash va LMF dizayni bo'yicha kelishuvga erishish uchun mutaxassislar guruhi bilan yaqindan hamkorlik qildilar. Muammoni hal qilish qiyin deb nomlangan bir nechta tillarda muammolarni hal qilishning kuchli mexanizmlarini ta'minlash uchun morfologiyaga alohida e'tibor berildi. 13 ta versiyasi yozilgan, yuborilgan (Milliy nomzod mutaxassislarga), sharhlar va turli xil ISO texnik yig'ilishlarida muhokama qilingan. Besh yillik ishdan so'ng, ko'plab yuzma-yuz uchrashuvlar va elektron pochta almashinuvlarini o'z ichiga olgan holda, tahrirlovchilar izchil UML modeliga kelishdi. Xulosa qilib aytganda, LMFni NLP leksikasi sohasidagi eng zamonaviy darajadagi sintez deb hisoblash kerak.

Hozirgi bosqich

ISO raqami 24613. LMF spetsifikatsiyasi 2008 yil 17 noyabrda Xalqaro standart sifatida rasmiy ravishda nashr etilgan.

ISO / TC37 standartlari oilasining a'zolaridan biri sifatida

Hozirda ISO / TC37 standartlari yuqori darajada ishlab chiqilgan texnik xususiyatlar va bilan shug'ullanish so'zlarni ajratish (ISO 24614), izohlar (ISO 24611 a.k.a. MAF, ISO 24612 a.k.a. LAF, ISO 24615 a.k.a. SynAF va ISO 24617-1 a.k.a. SemAF / Time), xususiyati tuzilmalari (ISO 24610), multimedia konteynerlari (ISO 24616 aka MLIF) va leksikonlar (ISO 24613) .Ushbu standartlar doimiylikka bag'ishlangan past darajadagi spetsifikatsiyalarga, ya'ni ma'lumotlar toifalariga asoslangan (ISO 12620 qayta ko'rib chiqilgan), til kodlari (ISO 639 ), skript kodlari (ISO 15924 ), mamlakat kodlari (ISO 3166 ) va Unicode (ISO 10646 ).

Ikki darajali tashkilot quyidagi umumiy va sodda qoidalar bilan izchil standartlar oilasini shakllantiradi:

  • yuqori darajadagi spetsifikatsiya standartlashtirilgan konstantalar bilan bezatilgan strukturaviy elementlarni taqdim etadi;
  • past darajadagi spetsifikatsiyalar metama'lumot sifatida standartlashtirilgan doimiylikni ta'minlaydi.

Asosiy standartlar

/ Feminine / yoki / transitive / kabi tilshunoslik konstantalari LMFda aniqlanmagan, ammo ISO / TEC37 tomonidan ISO / IEC 11179-3: 2003 ga muvofiq global manba sifatida saqlanadigan ma'lumotlar toifalari registrida (DCR) qayd etilgan.[2] Va bu doimiylik yuqori darajadagi strukturaviy elementlarni bezash uchun ishlatiladi.

LMF spetsifikatsiyasi .ning modellashtirish printsiplariga mos keladi Birlashtirilgan modellashtirish tili (UML) tomonidan belgilanganidek Ob'ektlarni boshqarish guruhi (OBBO). Tuzilma UML klassi yordamida aniqlanadi diagrammalar. Misollar UML instansiyasi (yoki ob'ekt) diagrammalari orqali keltirilgan.

XML DTD LMF hujjatining ilovasida keltirilgan.

Model tuzilishi

LMF quyidagi tarkibiy qismlardan iborat:

  • Lug'aviy yozuvdagi ma'lumotlarning asosiy ierarxiyasini tavsiflovchi strukturaviy skelet bo'lgan asosiy paket.
  • Yadro paketining kengaytmalari, ular ma'lum bir leksik manba uchun zarur bo'lgan qo'shimcha komponentlar bilan birgalikda yadro komponentlarini qayta ishlatilishini tavsiflovchi doirada.

Kengaytmalar maxsus bag'ishlangan morfologiya, MRD, NLP sintaksis, NLP semantik, NLP ko'p tilli yozuvlar, NLP morfologik naqshlar, ko'p so'zli ibora naqshlar va cheklov ifodasi naqshlar.

Misol

Quyidagi misolda leksik yozuv lemma bilan bog'liq ruhoniy va ikkita egilgan shakl ruhoniy va ruhoniylar. Tilni kodlash butun leksik resurs uchun o'rnatiladi. Tilning qiymati quyidagi ko'rsatilgandek butun leksika uchun o'rnatiladi UML misol diagramma.

LMFMorphoClergymanInflected.svg

Elementlar Leksik manba, Global ma'lumotlar, Leksika, Leksik yozuv, Lemma va So'z shakli leksikaning tarkibini aniqlang. Ular LMF hujjatida ko'rsatilgan, aksincha, til kodlash, til, qismOfSpeech, umumiy ism, writtenForm, grammatik raqam, yakka, ko'plik ma'lumotlar toifalari registridan olingan ma'lumotlar toifalari. Ushbu belgilar strukturani bezatadi. Qadriyatlar ISO 639-3, ruhoniy, ruhoniylar oddiy belgilar qatorlari. Qiymat inglizcha bilan belgilangan tillar ro'yxatidan olingan ISO 639-3.

Kabi ba'zi qo'shimcha ma'lumotlar bilan dtdVersion va feat, xuddi shu ma'lumotlar quyidagicha ifodalanishi mumkin XML parcha:

 dtdVersion ="15">    <GlobalInformation>         att ="languageCoding" val ="ISO 639-3"/>    </GlobalInformation>    <Lexicon>         att ="til" val ="eng"/>        <LexicalEntry>             att ="partOfSpeech" val ="commonNoun"/>            <Lemma>                 att ="writtenForm" val ="ruhoniy"/>            </Lemma>            <WordForm>                  att ="writtenForm" val ="ruhoniy"/>                  att ="grammatik raqam" val ="yagona"/>            </WordForm>            <WordForm>                 att ="writtenForm" val ="ruhoniylar"/>                 att ="grammatik raqam" val ="ko'plik"/>            </WordForm>        </LexicalEntry>    </Lexicon></LexicalResource>

Ushbu misol juda sodda, LMF esa ancha murakkab lingvistik tavsiflarni taqdim etishi mumkin, XML yorlig'i mos ravishda murakkab.

LMF haqida tanlangan nashrlar

LMF spetsifikatsiyasi to'g'risidagi birinchi nashr ISO tomonidan ratifikatsiya qilinganligi sababli (ushbu maqola (2015 yilda) 9-o'rinda eng ko'p havola qilingan qog'ozga aylandi) Til resurslari va baholash LREC ma'ruzalaridan olingan konferentsiyalar):

  • Til resurslari va baholash LREC-2006 / Genoa: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF) [3]

Semantik vakillik haqida:

  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tubingen: Gil Frankopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexical Markup Framework ISO standard for semantic information for NLP lexicons. [4]

Afrika tillari haqida:

  • Traitement Automatique des langues naturelles, Marsel, 2014 yil: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: LMF-based wolof language lexicon (Vers la mise en place d'un lexique basé sur LMF pour la langue wolof) ) [frantsuz tilida][5]

Osiyo tillari haqida:

  • Leksikografiya, ASIALEX jurnali, Springer 2014: Leksik belgilash doirasi: Gil Frankopoulo, Chu-Ren Xuang: Elektron leksikalar uchun ISO standarti va uning Osiyo tillari uchun ta'siri DOI 10.1007 / s40607-014-0006-z

Evropa tillari haqida:

  • COLING 2010: Verena Henrich, Erxard Xinrixs: Wordnets-ni ISO standartidagi standartlashtirish LMF: GermaNet uchun Wordnet-LMF [6]
  • EACL 2012: Judith Ekle-Kohler, Iryna Gurevych: Subcat-LMF: Subkategoriyalar doirasining o'zaro ishlashi uchun standartlashtirilgan formatni tanlash. [7]
  • EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Xartmann, Maykl Matuschek, Kristian M Meyer, Kristian Virt: UBY - LMF asosida yaratilgan katta ko'lamli birlashgan leksik-semantik manba.[8]

Semit tillari haqida:

  • Tabiiy til muhandisligi jurnali, Kembrij universiteti matbuoti (2015 yil bahorida paydo bo'ladi): Aida Xemaxem, Bilel Garguri, Abdelmajid Ben Hamadu, Gil Frankopoulo: ISO ning katta arabcha lug'atining standart modellashtirilishi.
  • Ettinchi Global Wordnet konferentsiyasining materiallari: Nadiya B M Karmani, Xsan Sussu, Adel M Alimi: Aeb tili uchun ISO LMF-da standart Wordnet yaratish.[9]
  • Seminar ishi: Arab dunyosidagi HLT & NLP, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Arabcha fe'llarning sintaktik leksikasi tomon.[10]
  • Traitement Automatique des Langues Naturelles, Tuluza (frantsuz tilida) 2007: Khehemhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613.[11]

Maxsus kitob

2013 yilda nashr etilgan kitob mavjud: LMF leksik belgilash doirasi[12] bu butunlay LMFga bag'ishlangan. Birinchi bobda leksika modellari tarixi, ikkinchi bobda ma'lumotlar modelining rasmiy taqdimoti, uchinchisida esa ISO-DCR ma'lumotlar toifalari bilan bog'liqligi haqida so'z boradi. Qolgan 14 bobda ilmiy tadqiqotlar laboratoriyalarida yoki sanoat dasturlari uchun fuqarolik yoki harbiy sohadagi leksikon yoki tizim haqida so'z boradi. Bular Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, RELISH, GlobalAtlas (yoki Global Atlas) va Wordscape.

Bilan bog'liq ilmiy aloqalar

Shuningdek qarang

Adabiyotlar

  1. ^ "ISO 24613: 2008 - Til resurslarini boshqarish - Leksik belgilash doirasi (LMF)". Iso.org. Olingan 2016-01-24.
  2. ^ a b "Tadqiqot infratuzilmasi uchun standartlarning dolzarbligi" (PDF). Hal.inria.fr. Olingan 2016-01-24.
  3. ^ "Leksik belgilash doirasi (LMF)" (PDF). Hal.inria.fr. Olingan 2016-01-24.
  4. ^ "NLP ko'p tilli resurslari uchun leksik belgilar bazasi (LMF)" (PDF). Hal.inria.fr. Olingan 2016-01-24.
  5. ^ "Vers la mise en place d'un lexique basé sur LMF pour la langue Wolof" (PDF). Aclweb.org. Olingan 2016-01-24.
  6. ^ "Wordnetsni ISO standartidagi standartlashtirish LMF: GermaNet uchun Wordnet-LMF" (PDF). Aclweb.org. Olingan 2016-01-24.
  7. ^ "Subcat-LMF: pastki toifalashtirish ramkalarining o'zaro ishlashi uchun standartlashtirilgan formatni aniqlash" (PDF). Aclweb.org. Olingan 2016-01-24.
  8. ^ "UBY - LMF asosida keng ko'lamli yagona leksik-semantik manba" (PDF). Aclweb.org. Olingan 2016-01-24.
  9. ^ "Aeb tili uchun ISO LMF-da standartlashtirilgan Wordnet yaratish" (PDF). Aclweb.org. Olingan 2016-01-24.
  10. ^ "LREC 2008 protsessi". Lrec-conf.org. Olingan 2016-01-24.
  11. ^ "Modellashtirish paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613" (PDF). Aclweb.org. Olingan 2016-01-24.
  12. ^ Gil Francopoulo (tahrir qilgan) LMF leksik belgilash doirasi, ISTE / Wiley 2013 (ISBN  978-1-84821-430-9)

Tashqi havolalar