Kristofer D. Peys - Christopher D. Paice

Kristofer D Peys tadqiqotning kashshoflaridan biri bo'lgan poydevor. Paice-Husk stemmer 1990 yilda nashr etilgan va uning stemmer ishlashini Xatolar nisbati bilan qisqartirish (ERRT) yordamida baholash usuli pastki va ortiqcha xatolarni taqqoslashning birinchi to'g'ridan-to'g'ri usuli edi. Dastlabki algoritmlar va baholash usullari bo'yicha kashshoflik ishlaridan tashqari, u ushbu sohada boshqa tadqiqot ishlarini olib bordi Axborot olish, anafora rezolyutsiyasi va avtomatik abstrakt. [1] [2]

O'qituvchilik faoliyati

Kristofer D Pays Kompyuter va aloqa maktabining a'zosi bo'lgan (SCC) Lankaster universiteti, Birlashgan Qirollik taxminan qirq yil davomida, dastlab 1969-70 yillarda o'sha paytdagi kompyuter tadqiqotlari bo'limiga ilmiy xodim sifatida qo'shildi; keyin ma'ruza kursiga o'ting. U 1977-78 yillarda bo'lim boshlig'i vazifasini bajaruvchi, 1979-82 yillarda kafedra mudiri bo'lib ishlagan va 2009 yilda nafaqaga chiqqan.[3]

Pays-Husk asosidagi algoritm

Paice-Husk Stemmer Kris D Peyz tomonidan Garet Xasskning yordami bilan Lancaster Universitetining hisoblash bo'limida ishlab chiqilgan, 1980-yillarning oxirlarida u tashqi tomondan saqlanadigan asosiy qoidalar to'plamiga ega va bu moslashuvchanlik Porter stemmer buni bir nechta tadqiqotchilar qiziqtirgan.[4]

Dastlab Paskal dasturlash tilida amalga oshirilgan bo'lib, keyingi dasturlar ANSI C va Java yordamida amalga oshirildi. Perl versiyasi Meri Taffet tomonidan AQShning Sirakuza universiteti Tabiiy tillarni qayta ishlash markazida amalga oshirildi.[5]

Stemmer stemming algoritmi va stemming qoidalarining alohida to'plamidan iborat. Standart qoidalar to'plami "kuchli" stemmerni ta'minlaydi. Stemmer kuchi - bu indeksni siqish uchun foydali bo'lgan sifat, ammo u Understemming xatolar soniga nisbatan ko'proq Overstermming xatolarini keltirib chiqaradi; engilroq stemmerga muhtoj bo'lgan foydalanuvchilar o'zlarining qoidalarini osongina ishlab chiqishlari mumkin.

Stemmer takrorlanuvchi (ya'ni, oxirlar noma'lum bosqichlarda qismlarga bo'linib olib tashlanadi) va qoidalarda tugatishning olib tashlanishi yoki almashtirilishi ko'rsatilishi mumkin. O'zgartirish texnikasi qayta hisoblash yoki qisman moslikni ta'minlash uchun jarayonda alohida bosqich zarurligini oldini oladi; bu algoritm samaradorligini saqlashga yordam beradi. Qoidalar samarali qidirishni ta'minlash uchun oxirning oxirgi harfi bilan indekslanadi.[6]

Stemmerni baholash

Stemmerning o'zi bilan bir qatorda, Kris Peys stemmerga qo'llaniladigan so'zlarning guruhlangan ro'yxatlari yordamida stemmerlarning ish faoliyatini to'g'ridan-to'g'ri o'lchash usulini ishlab chiqdi, ortiqcha va pastki tizimdagi xatolar sonini hisoblab chiqdi, natijada natijalarni qisqartirish stemmers to'plami. Oxirgi o'lchov - bu qisqartirishga nisbatan xato darajasi (ERRT).[7][8]

Shaxsiy hayot

Kristofer D Pays 1941 yilda tug'ilgan, u Ketlin F Moss bilan 1965 yilda Manchesterni ro'yxatdan o'tkazish tumanida turmushga chiqqan, 2015 yilda unga aqressiv miya shishi tashxisi qo'yilgan, rafiqasi bilan Kumbriyadan Stratfordga ko'chib o'tganidan ko'p o'tmay, u 21 aprelda vafot etgan. 2016 yil.

Nashrlar

  • C D Paice (1977). Axborot olish va kompyuter,. Makdonald va Jeyn's, London.
  • C D Paice (1980). Ishlar SIGIR '80 Adabiyotlarning avtomatik avlodi: avtoreferatlar: o'zini ko'rsatadigan iboralarni aniqlashga asoslangan yondashuv.. Buttervort. ISBN  0-408-10775-8.
  • C D Paice (1984). Axborot texnologiyalari tadqiqotlarini rivojlantirish dasturlari: 3-jild, 1-son, Axborot qidirish tizimlarida mantiqiy qidiruv so'rovlarini yumshoq baholash.. Buttervort.
  • C D Paice; V. Aragon-Ramirez (1985). RIAO '85: Recherche d'Informations Assistée par Ordinateur, tezaurus yordamida ko'p so'zli qatorlar orasidagi o'xshashlikni hisoblash. LE CENTER DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE HUJJATLARI.
  • C D Paice (1986). ASLIB materiallari: 38-jild, 10-son, Axborot olish bo'yicha ekspert tizimlari?. Aslib, Axborotni boshqarish assotsiatsiyasi.
  • C D Paice (1990). Axborotni qayta ishlash va boshqarish: Xalqaro jurnal, 26-jild, 1-son. Kompyuter orqali adabiyotlar tezislarini yaratish: texnikasi va istiqbollari. Pergamon Press, Inc.
  • C D Paice (1990). Axborotni qayta ishlash va boshqarish: Xalqaro jurnal, 27-jild, 5-son Axborot olishning tezur modeli. Pergamon Press, Inc.
  • C D Paice (1991). ACM SIGIR forumi: 24-jild 3-son. Yana bir stemmer. ACM.
  • F. C. Jonson; D. D. Pays; W. J. Black; A. P. Nil (1997). Axborot olishda o'qishlar: Avtomatik mavhum avlodga lingvistik ishlov berishni qo'llash. Morgan Kaufmann Publishers Inc.
  • Maykl B. Tvideyl; Devid M. Nikols; Kris D. Peys (1997). Axborotni qayta ishlash va boshqarish: Xalqaro jurnal: 33-jild, 6-son, Varaqlash - bu hamkorlikdagi jarayon. Pergamon Press, Inc.
  • Maykl P. Oaks; C. D. Paice (1999). IRSG'99: Axborot qidirish bo'yicha 21 yillik yillik BCS-IRSG konferentsiyasi materiallari Avtomatik abstrakt uchun shablonlarni avtomatik yaratish. BCS.
  • C. D. Paice (2009). Matn ma'lumotlarini leksik tahlil qilish. Ma'lumotlar bazalari tizimlarining entsiklopediyasi. Springer, AQSh 1606–1610-betlar. ISBN  978-0-387-35544-3.
  • C. D. Paice (2009). Stemming. Ma'lumotlar bazalari tizimlarining entsiklopediyasi. Springer, AQSh 2790–2793 betlar. ISBN  978-0-387-35544-3.

Adabiyotlar

  1. ^ [1], Trier universiteti, DBLP kompyuter fanlari bibliografiyasi
  2. ^ [2], ACM Muallif sahifasi, C D Paice
  3. ^ [3], Lankaster universiteti, Kris Peys xotirasiga
  4. ^ [4], Lankaster stemming algoritmini takomillashtirish (Paice-Husk Stemmer), Antonio Zamora
  5. ^ [5], GitHub, Paice-Husk Stemmer bir nechta tillarda
  6. ^ "Arxivlangan nusxa". Arxivlandi asl nusxasidan 2006-08-22. Olingan 2006-08-22.CS1 maint: nom sifatida arxivlangan nusxa (havola)
  7. ^ Paice, CD, (1994) Algoritmlarni to'xtatish uchun baholash usuli Croft, W.B. & van Raysbergen, SJ (tahr.), Dublinda bo'lib o'tgan 17-ACM SIGIR konferentsiyasi materiallari, 1994 yil 3-6 iyul; 42-50 betlar.
  8. ^ Pays, Kolumbiya (1996) Xatolarni hisoblash asosida kelib chiqish algoritmlarini baholash usuli, JASIS, 47 (8): 632-649