Daraxt banki - Treebank

Ko'pgina sintaktik daraxt qirralari ikkala variantga izoh beradi iboralar tarkibi (chapda) yoki qaramlik tuzilishi (o'ngda).

Yilda tilshunoslik, a daraxtzor tahlil qilingan matn korpusi bu izohlar sintaktik yoki semantik hukm tuzilishi. 1990-yillarning boshlarida ajralgan korpuslarning qurilishi inqilobga aylandi hisoblash lingvistikasi, bu keng ko'lamli foyda keltirdi empirik ma'lumotlar.[1] Daraxtlar sohilidagi ma'lumotlardan foydalanish birinchi yirik daraxtzorlardan beri muhim ahamiyatga ega, Penn Treebank, nashr etildi. Biroq, hisoblash tilshunosligidan kelib chiqqan bo'lsa-da, daraxtlar qirg'oqlarining qiymati umuman tilshunoslik tadqiqotlarida yanada kengroq baholanmoqda. Masalan, izohlangan daraxtlar sohasi ma'lumotlari sintaktik izlanishlarda jumla tuzilishining lingvistik nazariyalarini tabiiy ravishda ko'p uchraydigan misollar bilan sinab ko'rish uchun juda muhimdir.

Etimologiya

Atama daraxtzor tilshunos tomonidan ishlab chiqilgan Jefri Suluk 1980-yillarda, a kabi boshqa omborlarga o'xshashlik bilan urug 'banki yoki qon banki.[2] Buning sababi shundaki, ham sintaktik, ham semantik tuzilish odatda kompozitsion sifatida a shaklida ifodalanadi daraxt tuzilishi. Atama ajralgan korpus ko'pincha daraxtlar emas, balki jumlalarning ustunligiga e'tibor berib, daraxtlar atamasi bilan bir xilda ishlatiladi.

Qurilish

Daraxt banklari ko'pincha allaqachon izohlangan korpusning tepasida yaratiladi nutq qismining teglari. O'z navbatida, ba'zan daraxt qirg'oqlari yaxshilanadi semantik yoki boshqa lingvistik ma'lumotlar. Treebanks to'liq qo'lda yaratilishi mumkin, bunda tilshunoslar har bir jumlaga sintaktik tuzilishga izoh berishadi yoki yarim avtomatik ravishda, bu erda tahlilchi tilshunoslar tekshiradigan va kerak bo'lganda tuzatadigan ba'zi sintaktik tuzilmani belgilaydi. Amalda, tabiiy til korpuslarini tahlil qilishni to'liq tekshirish va to'ldirish - bu mehnat talab qiladigan loyiha bo'lib, aspirant tilshunoslarning jamoalarini bir necha yil talab qilishi mumkin. Izoh tafsilotlari darajasi va lingvistik namunaning kengligi vazifaning qiyinligini va daraxtlar qirg'og'ini qurish uchun zarur bo'lgan vaqtni belgilaydi.

Uchun iboralar tarkibi daraxti Jon Maryamni yaxshi ko'radi
Dan gibrid saylov okrugi / qaramlik daraxti Qur'on arab korpusi

Ba'zi daraxt qirg'oqlari sintaktik izohlashda ma'lum bir lingvistik nazariyaga amal qiladi (masalan BulTreeBank quyidagilar HPSG ), ammo ko'pchilik nazariyaga xos bo'lmagan bo'lishga harakat qiladi. Shu bilan birga, ikkita asosiy guruhni ajratish mumkin: izoh beradigan daraxt qirg'oqlari iboralar tarkibi (masalan Penn Treebank yoki ICE-GB ) va izoh beradiganlar qaramlik tuzilishi (masalan Praga qaramligi daraxt banki yoki Qur'on arabcha qaramlik daraxt banki ).

Izohli ma'lumotlarni saqlash uchun ishlatiladigan rasmiy vakillik va fayl formati o'rtasidagi farqni aniqlashtirish muhimdir. Daraxtlar ma'lum bir grammatikaga binoan qurilishi kerak. Bitta grammatikani turli xil fayl formatlari amalga oshirishi mumkin. Masalan, uchun sintaktik tahlil Jon Maryamni yaxshi ko'radi, o'ngdagi rasmda ko'rsatilgan matnli faylda oddiy belgilangan qavslar bilan ifodalanishi mumkin (quyidagicha Penn Treebank notation):

(S (NP (NNP John))) (VP (VPZ sevadi) (NP (NNP Mary)))) (..))

Ushbu turdagi vakillik mashhurdir, chunki u resurslarga engil va daraxt tuzilishini dasturiy vositalarsiz o'qish nisbatan osondir. Biroq, korpuslar tobora murakkablashib borayotganligi sababli, boshqa fayl formatlari afzal bo'lishi mumkin. Shu bilan bir qatorda daraxtzorlarga xosdir XML sxemalar, raqamlangan chuqurlik va har xil turg'unlik yozuvlari.

Ilovalar

A dan hisoblash lingvistikasi [3] istiqbolli, daraxt qirg'oqlari kabi zamonaviy tillarni qayta ishlash tizimlarini muhandis qilish uchun ishlatilgan nutq qismidagi yorliqlar, tahlilchilar, semantik analizatorlar va mashinaga tarjima tizimlari[4]. Ko'pgina hisoblash tizimlari oltin standartidagi daraxtlar ma'lumotlaridan foydalanadi. Biroq, odam tilshunoslari tomonidan tuzatilmagan avtomatik ravishda tahlil qilingan korpus hali ham foydali bo'lishi mumkin. Bu tahlil qiluvchi uchun qoida chastotasining dalillarini keltirishi mumkin. Parserni ko'p miqdordagi matnlarga qo'llash va qoidalar chastotalarini yig'ish orqali yaxshilash mumkin. Ammo shuni aniq ko'rinib turibdiki, faqat korpusni qo'l bilan tuzatish va to'ldirish jarayonida tahlilchi ma'lumot bazasida bo'lmagan qoidalarni aniqlash mumkin. Bundan tashqari, chastotalar aniqroq bo'lishi mumkin.

Yilda korpus tilshunosligi, daraxt qirg'oqlari sintaktik hodisalarni o'rganish uchun ishlatiladi (masalan, diaxronik korpuslar sintaktik o'zgarish vaqtini o'rganish uchun ishlatilishi mumkin). Tekshirilgandan so'ng, korpusda turli xil grammatik tuzilmalar qanchalik keng qo'llanilishini ko'rsatadigan chastotali dalillar mavjud. Treebanks shuningdek, qamrab olishning dalillarini taqdim etadi va yangi, kutilmagan, grammatik hodisalarning kashf etilishini qo'llab-quvvatlaydi.

In daraxt qirg'oqlaridan yana bir foydalanish nazariy tilshunoslik va psixolingvistika bu o'zaro ta'sir dalilidir. Tugallangan daraxtzor tilshunoslarga bitta grammatik konstruktsiyadan foydalanish to'g'risidagi qaror boshqalarni shakllantirish qaroriga ta'sir ko'rsatishga moyilligi va ma'ruzachilar va yozuvchilar qanday qilib jumla tuzayotganda qanday qaror qabul qilishlarini tushunishga harakat qilishlari haqida tajribalar o'tkazishda yordam berishi mumkin. O'zaro aloqalarni tadqiq qilish ayniqsa samarali bo'lib, izohlarning keyingi qatlamlari, masalan. semantik, amaliy, korpusga qo'shiladi. Keyin sintaktik bo'lmagan hodisalarning grammatik tanlovga ta'sirini baholash mumkin.

Semantik daraxtlar

Semantik daraxtlar to'plami - bu ma'no ifodasi bilan izohlangan tabiiy tildagi jumlalar to'plami. Ushbu manbalarda har bir jumlaning rasmiy vakili ishlatiladi semantik tuzilishi. Semantik daraxt qirg'oqlari ularning semantik vakili chuqurligidan farq qiladi. Chuqur semantik izohlashning muhim namunasi Groningen ma'nosi banki, da ishlab chiqilgan Groningen universiteti va izohli foydalanish Diskurs vakili nazariyasi. Sayoz semantik daraxtlar sohiliga misol PropBank, tarkibidagi har bir so'zni ifodalashga urinmasdan, og'zaki takliflar va ularning dalillarini izohlashni ta'minlaydi. mantiqiy shakl.

TilDaraxt bankiSemantik FormalizmTarqatish / litsenziya
XitoyXitoyning universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
Ingliz tiliMavhum ma'no vakili (AMR) bankiChuqur semantika?
Ingliz tiliFrameNetSayoz semantik?
Ingliz tiliUmumjahon kontseptual kognitiv izoh (UCCA)Chuqur semantika?
Ingliz tiliRobot buyruqlari Treebank [5]Chuqur semantika?
Ingliz tiliGroningen ma'nosi bankiChuqur semantika?
Ingliz tiliDeepBank loyihasiChuqur semantika?
Ingliz tiliTreebank Semantics Parsed CorpusChuqur semantika?
Ingliz tiliRoboCup CorpusChuqur semantika?
Ingliz tiliGeoqueryChuqur semantika?
Ingliz tiliPropBankPropBank semantikturli xil litsenziyalar
FinlyandiyaFinlyandiya universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
FinlyandiyaFinlyandiya PropBankPropBank semantikCC BY-SA 4.0
FrantsuzFrantsuz universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
NemisNemis universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
ItalyanchaItaliya universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
PortugalPortugaliyaning PortLexPropBank semantik?
PortugalPortugaliyaning universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
IspaniyaIspaniyaning universal takliflariPropBank semantikCC BY-NC-SA 3.0 AQSh
TurkchaTurkiya PropBankPropBank semantikCC BY-NC-SA 4.0

Chuqur sintaksis daraxtzorlari

Chuqur sintaksis daraxtbo'yi - bu sintaksis va semantikaning o'rtasida joylashgan daraxtzor, bu erda vakillik tuzilishi grafik sifatida talqin qilinishi mumkin, bu infinitival iboralar mavzusini, ekstraktsiyani, ajraladigan qismni qurish, birgalikda ellipsis va boshqalarni aks ettiradi. (uzaytirish)

Sintaktik daraxt qirralari

Ko'plab sintaktik daraxtlar turli xil tillar uchun yaratilgan:

TilDaraxt bankiSintaktik FormalizmTarqatish / litsenziya
AbazaUmumjahon bog'liqliklar, ATBQaramlikCC BY-SA
AfrikaanslarUmumjahon bog'liqliklar, AfriBoomsQaramlikCC BY-SA
AkkadUmumjahon bog'liqliklar, PISANDUBQaramlikCC BY-SA
AlbanchaUmumjahon bog'liqliklar, TSAQaramlikCC BY-SA
AmharchaUmumjahon bog'liqliklar, ATTQaramlikCC BY-SA
Qadimgi yunonchaUmumjahon bog'liqliklar, PerseyQaramlikCC BY-NC-SA
Qadimgi yunonchaUmumjahon bog'liqliklar, PROIELQaramlikCC BY-NC-SA
Yunoncha (qadimiy)Qadimgi Yunonistonga qaramlik daraxt banki[6][7]QaramlikOchiq manbali (Creative Commons litsenziyasi )
Yunoncha (qadimiy)PROIEL Treebank[8]QaramlikOchiq manbali (Creative Commons litsenziyasi )
ArabchaColumbia Arab Treebank (CATiB)QaramlikLingvistik ma'lumotlar konsortsiumi
ArabchaPraga arabcha qaramlik daraxt banki (PADT)QaramlikLingvistik ma'lumotlar konsortsiumi
ArabchaUmumjahon bog'liqliklar, NYUADQaramlikCC BY-SA
ArabchaUmumjahon bog'liqliklar, PADTQaramlikCC BY-NC-SA
ArabchaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
ArabchaPenn Arab daraxt daraxtlari bankiSo'z birikmasiLingvistik ma'lumotlar konsortsiumi
ArmanUmumjahon bog'liqliklar, ArmTDPQaramlikCC BY-SA
Ossuriya (neo-aramik)Umumjahon bog'liqliklar, ASQaramlikCC BY-SA
BambaraUmumjahon bog'liqliklar, CRBQaramlikCC BY-SA
BaskUmumjahon bog'liqliklar, BDTQaramlikCC BY-NC-SA
BelorussiyaUmumjahon bog'liqliklar, HSEQaramlikCC BY-SA
BxojpuriUmumjahon bog'liqliklar, BhEnQaramlikCC BY-SA
BxojpuriUmumjahon bog'liqliklar, BHTBQaramlikCC BY-SA
BretonUmumjahon bog'liqliklar, KEBQaramlikCC BY-SA
BolgarUmumjahon bog'liqliklar, BTBQaramlikCC BY-NC-SA
BolgarBulTreeBankHPSGTadqiqot uchun bepul mavjud
BuryatUmumjahon bog'liqliklar, BDTQaramlikCC BY-SA
KantonUmumjahon bog'liqliklar, HKQaramlikCC BY-SA
KataloniyaCat3LBSo'z birikmasiTadqiqot uchun bepul mavjud
KataloniyaUmumjahon bog'liqliklar, AnCoraQaramlikGPL
XitoySinica TreebankIsh grammatikasiErkin mavjud emas
XitoyUmumjahon bog'liqliklar, CFLQaramlikCC BY-SA
XitoyUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
XitoyUmumjahon bog'liqliklar, GSDSimpQaramlikCC BY-SA
XitoyUmumjahon bog'liqliklar, HKQaramlikCC BY-SA
XitoyUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
XitoyPenn Chinese TreebankSo'z birikmasiLingvistik ma'lumotlar konsortsiumi
XitoyXitoy qaramligi daraxt bankiQaramlikLingvistik ma'lumotlar konsortsiumi
Arab (klassik)Qur'on arabcha qaramlik daraxt banki (QADT) (Qur'on arab korpusi )QaramlikOchiq manbali (GNU umumiy ommaviy litsenziyasi )
Klassik armanPROIEL Treebank[8]QaramlikOchiq manbali (Creative Commons litsenziyasi )
KoptikUmumjahon bog'liqliklar, Koptik skriptoriumQaramlikCC BY
XorvatXorvatiya qaramligi daraxt bankiQaramlikOchiq manbali (Creative Commons litsenziyasi )
XorvatUmumjahon bog'liqliklar, SETQaramlikCC BY-SA
ChexPraga qaramligi daraxt bankiQaramlikOchiq manbali (Creative Commons litsenziyasi )
ChexUmumjahon bog'liqliklar, CACQaramlikCC BY-SA
ChexUmumjahon bog'liqliklar, CLTTQaramlikCC BY-SA
ChexUmumjahon bog'liqliklar, FicTreeQaramlikCC BY-NC-SA
ChexUmumjahon bog'liqliklar, TINCH OKEANI KUNDUZGI VAQTIQaramlikCC BY-NC-SA
ChexUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
DaniyaDaniya qaramligi daraxt bankiQaramlikOchiq manbali (GNU umumiy ommaviy litsenziyasi )
DaniyaArboretum: Daniya sintaktik daraxt korpusiSo'z birikmasiLitsenziya to'lovi
DaniyaUmumjahon bog'liqliklar, DDTQaramlikCC BY-SA
DaniyaUmumjahon bog'liqliklar, DTBQaramlikCC BY-SA
GollandNutq qilingan Dutch Corpus (CGN)So'z birikmasiLitsenziya to'lovi
GollandUmumjahon bog'liqliklar, AlpinoQaramlikCC BY-SA
GollandUmumjahon bog'liqliklar, LassySmallQaramlikCC BY-SA
GollandLASSY Kichik va KattaQaramlikLitsenziya to'lovi
GollandAlpino daraxt bankiQaramlikOchiq manbali (GNU umumiy ommaviy litsenziyasi )
Ingliz tiliCCGbankKombinativ kategoriya grammatikasiLingvistik ma'lumotlar konsortsiumi
Ingliz tiliLinGO RedwoodsHPSG?
Ingliz tiliLancaster Parsed CorpusSo'z birikmasi?
Ingliz tiliPraga English Dependency TreebankQaramlikLingvistik ma'lumotlar konsortsiumi
Ingliz tiliUmumjahon bog'liqliklar, BhEnQaramlikCC BY-SA
Ingliz tiliUmumjahon bog'liqliklar, ESLQaramlikCC BY-SA
Ingliz tiliUmumjahon bog'liqliklar, EWTQaramlikCC BY-SA
Ingliz tiliUmumjahon bog'liqliklar, SaqichQaramlikCC BY-NC-SA
Ingliz tiliUmumjahon bog'liqliklar, GUMRedditQaramlikCC BY
Ingliz tiliUmumjahon bog'liqliklar, LinESQaramlikCC BY-NC-SA
Ingliz tiliUmumjahon bog'liqliklar, ParTUTQaramlikCC BY-NC-SA
Ingliz tiliUmumjahon bog'liqliklar, OlmoshlarQaramlikCC BY-SA
Ingliz tiliUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
Ingliz tiliTreebank Semantics Parsed CorpusSo'z birikmasiOchiq manbali (Creative Commons litsenziyasi )
Ingliz tiliChristine CorpusSo'z birikmasiTadqiqot uchun bepul mavjud
Ingliz tiliLucy CorpusSo'z birikmasiTadqiqot uchun bepul mavjud
Ingliz tiliSusanne CorpusSo'z birikmasiTadqiqot uchun bepul mavjud
Ingliz tiliBLLIP WSJ korpusiSo'z birikmasiLingvistik ma'lumotlar konsortsiumi
Ingliz tiliIngliz Tubingen Treebank / o'z-o'zidan nutq (TüBa-E / S)HPSGTadqiqot uchun bepul mavjud
Ingliz tiliBugungi kunda ingliz tilidagi diaxronik korpus (DCPSE)So'z birikmasiLitsenziya to'lovi
Ingliz tiliXalqaro ingliz korpusining ingliz komponenti (ICE-GB)So'z birikmasiLitsenziya to'lovi
Ingliz tiliPARC 700 qaramlik bankiQaramlik?
Ingliz tiliYahoo Query TreebankQaramlikTadqiqot uchun bepul mavjud
Ingliz tiliPenn TreebankSo'z birikmasiLingvistik ma'lumotlar konsortsiumi
Ingliz tiliKo'p daraxtzorlar bankiSo'z birikmasiTaqqoslash maqsadida Internetda mavjud
Ingliz tiliBOLALAR Jigarrang Momo Havo korpusi, qaramlik izohi bilanQaramlikOchiq manbali (Creative Commons litsenziyasi )
Ingliz tiliSMULTRON - Parallel Treebank EN-DE-SVSo'z birikmasiTadqiqot uchun bepul mavjud
ErzyaUmumjahon bog'liqliklar, JRQaramlikCC BY-SA
EstoniyaArborestSo'z birikmasi?
EstoniyaSintaktik tahlil qilingan va ajratilgan matn korpusiQaramlikTadqiqot uchun bepul mavjud
EstoniyaUmumjahon bog'liqliklar, EDTQaramlikCC BY-NC-SA
EstoniyaUmumjahon bog'liqliklar, EWTQaramlikCC BY-NC-SA
FaroUmumjahon bog'liqliklar, FarPaHCQaramlikCC BY-SA
FaroUmumjahon bog'liqliklar, OFTQaramlikCC BY-SA
FinlyandiyaTurku Dependency Treebank (TDT)QaramlikOchiq manbali (Creative Commons litsenziyasi )
FinlyandiyaUmumjahon bog'liqliklar, FTBQaramlikCC BY
FinlyandiyaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
FinlyandiyaUmumjahon bog'liqliklar, TDTQaramlikCC BY-SA
Frantsuz (gaplashadigan)RapsodiyaQaramlik va makrosintaktik izohlashOchiq manbali (Creative Commons litsenziyasi )
FrantsuzL'ArboratoireSo'z birikmasi?
FrantsuzUmumjahon bog'liqliklar, CrapBankQaramlikCC BY-SA
FrantsuzUmumjahon bog'liqliklar, FQBQaramlikGPL
FrantsuzUmumjahon bog'liqliklar, FTBQaramlikGPL
FrantsuzUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
FrantsuzUmumjahon bog'liqliklar, ParTUTQaramlikCC BY-NC-SA
FrantsuzUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
FrantsuzUmumjahon bog'liqliklar, SequoiaQaramlikGPL
FrantsuzUmumjahon bog'liqliklar, Og'zakiQaramlikCC BY-SA
FrantsuzParij 7So'z birikmasiTadqiqot uchun bepul mavjud
FrantsuzBepul frantsuz TreebankSo'z birikmasiLGPL-LR ochiq manbali litsenziyasi
FrantsuzSequoia TreebankSo'z birikmasi & QaramlikLGPL-LR ochiq manbali litsenziyasi
GalisiyaUmumjahon bog'liqliklar, CTGQaramlikCC BY-NC-SA
GalisiyaUmumjahon bog'liqliklar, TreeGalQaramlikGPL
NemisGamburgga qaramlik daraxti banki (HDT)QaramlikTadqiqot uchun bepul mavjud
NemisUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
NemisUmumjahon bog'liqliklar, LITQaramlikCC BY-NC-SA
NemisUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
NemisSMULTRON - Parallel Treebank EN-DE-SVSo'z birikmasiTadqiqot uchun bepul mavjud
NemisNEGRASo'z birikmasiTadqiqot uchun bepul mavjud
NemisYo'lbarsSo'z birikmasiTadqiqot uchun bepul mavjud
NemisNemis Tübingen daraxt banki / O'z-o'zidan nutq (TüBa-D / S)So'z birikmasiTadqiqot uchun bepul mavjud
NemisYozma nemisning Tubingen daraxt banki (TüBa-D / Z)So'z birikmasiTadqiqot uchun bepul mavjud
NemisTübingen qisman yozma nemis korpusi (TüPP-D / Z)So'z birikmasiLitsenziya to'lovi
GotikPROIEL Treebank[8]QaramlikOchiq manbali (Creative Commons litsenziyasi )
GotikUmumjahon bog'liqliklar, PROIELQaramlikCC BY-NC-SA
YunonchaYunonistonga qaramlik daraxt bankiQaramlikErkin mavjud emas
YunonchaUmumjahon bog'liqliklar, GDTQaramlikCC BY-NC-SA
IbroniychaUmumjahon bog'liqliklar, HTBQaramlikCC BY-NC-SA
IbroniychaIbroniycha qaramlik daraxt bankiQaramlikOchiq manbali (GNU umumiy ommaviy litsenziyasi )
Hindcha inglizchaUmumjahon bog'liqliklar, HIENCSQaramlikCC BY-SA
HindUmumjahon bog'liqliklar, HDTBQaramlikCC BY-NC-SA
HindUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
HindAnnCorraQaramlik?
Ingliz (tarixiy)Tarixiy ingliz tilidagi Penn Parsed korporatsiyasi;So'z birikmasiLingvistik ma'lumotlar konsortsiumi (2020 yil aprel holatiga ko'ra)
Ingliz (tarixiy)York-Toronto-Xelsinki eski ingliz nasrining ajralgan korpusi (YCOE)So'z birikmasiTadqiqot uchun bepul mavjud
Frantsuz (tarixiy)Corpus MCVFSo'z birikmasiTadqiqot uchun bepul mavjud
Portugal (tarixiy)Tycho Brahe korpusiSo'z birikmasi?
VengerUmumjahon bog'liqliklar, SgedQaramlikCC BY-NC-SA
VengerVengriya TreebankSo'z birikmasi?
IslandchaIcePaHC - Islandiyaning ajralgan tarixiy korpusiSo'z birikmasiOchiq manbali (GNU Lesser General Public License )
IslandchaUmumjahon bog'liqliklar, IcePaHCQaramlikCC BY-SA
IslandchaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
IndoneziyalikUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
IndoneziyalikUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
IrlandUmumjahon bog'liqliklar, IDTQaramlikCC BY-SA
ItalyanchaISST - Italiya sintaktik-semantik daraxt bankiSo'z birikmasi va qaramlikLitsenziya to'lovi
ItalyanchaTUT va ISST-CoNLL / TANL daraxtzorlarini birlashtirish va uyg'unlashtirish natijasida hosil bo'lgan MIDT (Birlashgan italyancha qaramlik daraxt banki).qaramlikTadqiqot uchun bepul mavjud
ItalyanchaVIT - Venetsiya Italiya daraxt bankiSo'z birikmasi va qaramlikLitsenziya to'lovi
ItalyanchaUmumjahon bog'liqliklar, ISDTQaramlikCC BY-NC-SA
ItalyanchaUmumjahon bog'liqliklar, ParTUTQaramlikCC BY-NC-SA
ItalyanchaUmumjahon bog'liqliklar, PoSTWITAQaramlikCC BY-NC-SA
ItalyanchaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
ItalyanchaUmumjahon bog'liqliklar, TWITTIROQaramlikCC BY-SA
ItalyanchaUmumjahon bog'liqliklar, VITQaramlikCC BY-NC-SA
ItalyanchaCoNLL-2007 umumiy vazifasi uchun Italiya sintaktik-semantik daraxt banki (ISST-CoNLL)qaramlikTadqiqot uchun bepul mavjud
ItalyanchaSUT - Siena universiteti daraxt banki??
ItalyanchaTUT - Turin universiteti daraxt bankiQaramlikOchiq manbali (Creative Commons litsenziyasi )
ItalyanchaISDT (Italiyaning Stenford qaramligiga oid daraxt banki)qaramlikTadqiqot uchun bepul mavjud
YaponKyoto Text Corpus??
YaponUmumjahon bog'liqliklar, BCCWJQaramlikCC BY-NC-SA
YaponUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
YaponUmumjahon bog'liqliklar, KTCQaramlikCC BY-SA
YaponUmumjahon bog'liqliklar, ZamonaviyQaramlikCC BY-NC-SH
YaponUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
YaponKeyaki TreebankSo'z birikmasiOchiq manbali (Creative Commons litsenziyasi )
YaponYaponiyaning Tübingen daraxt banki / O'z-o'zidan nutq (TüBa-J / S)So'z birikmasiTadqiqot uchun bepul mavjud
YaponATR qaramligi korpusiQaramlik?
KarelianUmumjahon bog'liqliklar, KKPPQaramlikCC BY-SA
QozoqUmumjahon bog'liqliklar, KTBQaramlikCC BY-SA
Komi PermyakUmumjahon bog'liqliklar, UHQaramlikCC BY-SA
Komi ZyrianUmumjahon bog'liqliklar, IKDPQaramlikCC BY-SA
Komi ZyrianUmumjahon bog'liqliklar, PanjaraQaramlikCC BY-SA
KoreysUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
KoreysUmumjahon bog'liqliklar, KaistQaramlikCC BY-SA
KoreysUmumjahon bog'liqliklar, PennQaramlikCC BY-SA
KoreysUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
KoreysUmumjahon bog'liqliklar, SejongQaramlikCC BY-SA
KoreysKoreya daraxt bankiSo'z birikmasiLingvistik ma'lumotlar konsortsiumi
KurmanjiUmumjahon bog'liqliklar, MGQaramlikCC BY-SA
LotinUmumjahon bog'liqliklar, ITTBQaramlikCC BY-NC-SA
LotinUmumjahon bog'liqliklar, LLCTQaramlikCC BY-SA
LotinUmumjahon bog'liqliklar, PerseyQaramlikCC BY-NC-SA
LotinUmumjahon bog'liqliklar, PROIELQaramlikCC BY-NC-SA
LotinThomisticus Treebank indeksiQaramlikOchiq manbali (Creative Commons litsenziyasi )
LotinPROIEL Treebank[8]QaramlikOchiq manbali (Creative Commons litsenziyasi )
LotinLatin Dependency Treebank[9]QaramlikOchiq manbali (Creative Commons litsenziyasi )
LatviyaUmumjahon bog'liqliklar, LVTBQaramlikCC BY-SA
LitvaUmumjahon bog'liqliklar, ALKSNISQaramlikCC BY-SA
LitvaUmumjahon bog'liqliklar, HSEQaramlikCC BY-SA
LivviUmumjahon bog'liqliklar, KKPPQaramlikCC BY-SA
MagaxiUmumjahon bog'liqliklar, MGTBQaramlikCC BY-SA
MaltaUmumjahon bog'liqliklar, MUDTQaramlikCC BY-SA
MaratiUmumjahon bog'liqliklar, UFALQaramlikCC BY-SA
Mbya GuaraniUmumjahon bog'liqliklar, DuliQaramlikCC BY-NC-SA
Mbya GuaraniUmumjahon bog'liqliklar, TomasQaramlikCC BY-NC-SA
O'rta irlandUmumjahon bog'liqliklar, CritMITBQaramlikCC BY-SA
O'rta irlandUmumjahon bog'liqliklar, DipMITBQaramlikCC BY-SA
MokshaUmumjahon bog'liqliklar, JRQaramlikCC BY-SA
NayjaUmumjahon bog'liqliklar, NSCQaramlikCC BY-SA
Shimoliy SamiUmumjahon bog'liqliklar, GiellaQaramlikCC BY-SA
NorvegiyaINESS daraxtzorlari infratuzilmasiLFG?
NorvegiyaUmumjahon bog'liqliklar, BokmaalQaramlikCC BY-SA
NorvegiyaUmumjahon bog'liqliklar, NynorskQaramlikCC BY-SA
NorvegiyaUmumjahon bog'liqliklar, NynorskLIAQaramlikCC BY-SA
Qadimgi cherkov slavyanUmumjahon bog'liqliklar, PROIELQaramlikCC BY-NC-SA
Qadimgi cherkov slavyanTOROT Treebank[8]QaramlikOchiq manbali (Creative Commons litsenziyasi )
Qadimgi frantsuzchaUmumjahon bog'liqliklar, SRCMFQaramlikCC BY-NC-SA
Qadimgi rus tiliUmumjahon bog'liqliklar, RNCQaramlikCC BY-SA
Qadimgi rus tiliUmumjahon bog'liqliklar, TOROTQaramlikCC BY-NC-SA
Qadimgi rus tiliTOROT Treebank[8]QaramlikOchiq manbali (Creative Commons litsenziyasi )
Fors tiliFors qaramligiga oid daraxt banki (PerDT)QaramlikTadqiqot uchun bepul mavjud
Fors tiliPerTreeBankHPSGTadqiqot uchun bepul mavjud
Fors tiliUmumjahon bog'liqliklar, SerajiQaramlikCC BY-SA
PolshaTreebank / Polsha tili uchun test to'plamiHPSG?
PolshaUmumjahon bog'liqliklar, LFGQaramlikGPL
PolshaUmumjahon bog'liqliklar, PDBQaramlikCC BY-NC-SA
PolshaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
PolshaSkladnicaSo'z birikmasi va QaramlikOchiq manbali (GNU umumiy ommaviy litsenziyasi )
PortugalUmumjahon bog'liqliklar, BoskeQaramlikCC BY-SA
PortugalUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
PortugalUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
PortugalProjecto Floresta Sintá (c) ticaQaramlik, So'z birikmasiOchiq manbali (GNU umumiy ommaviy litsenziyasi )
RuminRuminiyaning qaramlik daraxti bankiQaramlik?
RuminUmumjahon bog'liqliklar, NostandartQaramlikCC BY-SA
RuminUmumjahon bog'liqliklar, RRTQaramlikCC BY-SA
RuminUmumjahon bog'liqliklar, SiMoNERoQaramlikCC BY-SA
RuschaUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
RuschaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
RuschaUmumjahon bog'liqliklar, SynTagRusQaramlikCC BY-NC-SA
RuschaUmumjahon bog'liqliklar, TaigaQaramlikCC BY-SA
RuschaSynTagRus qaramlik daraxt banki (Rossiya milliy korpusi )QaramlikTadqiqot uchun bepul mavjud
SanskritchaUmumjahon bog'liqliklar, UFALQaramlikCC BY-SA
SanskritchaUmumjahon bog'liqliklar, VedikQaramlikCC BY-SA
Shotland galigiUmumjahon bog'liqliklar, ARCOSGQaramlikCC BY-SA
SerbUmumjahon bog'liqliklar, SETQaramlikCC BY-SA
SindxiUmumjahon bog'liqliklar, MazharDootioQaramlikCC BY-SA
Skolt SamiUmumjahon bog'liqliklar, GiellagasQaramlikCC BY-SA
SlovakUmumjahon bog'liqliklar, SNKQaramlikCC BY-SA
SlovenSloveniya qaramlik daraxt bankiQaramlikTadqiqot uchun bepul mavjud
SlovenchaUmumjahon bog'liqliklar, SSJQaramlikCC BY-NC-SA
SlovenchaUmumjahon bog'liqliklar, SSTQaramlikCC BY-NC-SA
IspaniyaCast3LBSo'z birikmasi va qaramlikTadqiqot uchun bepul mavjud
IspaniyaUmumjahon bog'liqliklar, AnCoraQaramlikGPL
IspaniyaUmumjahon bog'liqliklar, GSDQaramlikCC BY-SA
IspaniyaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
IspaniyaIspaniyaning UAM TreebankSo'z birikmasiTadqiqot uchun bepul mavjud
ShvedTalbanken05So'z birikmasi va qaramlikTadqiqot uchun bepul mavjud
ShvedShvetsiya TreebankSo'z birikmasiTadqiqot uchun bepul mavjud
ShvedUmumjahon bog'liqliklar, LinESQaramlikCC BY-NC-SA
ShvedUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
ShvedUmumjahon bog'liqliklar, TalbankenQaramlikCC BY-SA
ShvedSMULTRON - Parallel Treebank EN-DE-SVSo'z birikmasiTadqiqot uchun bepul mavjud
Shved imo-ishora tiliUmumjahon bog'liqliklar, SSLCQaramlikCC BY-SA
Shveytsariyalik nemisUmumjahon bog'liqliklar, UZHQaramlikCC BY-SA
TagalogchaUmumjahon bog'liqliklar, TRGQaramlikCC BY-SA
TagalogchaUmumjahon bog'liqliklar, UgnayanQaramlikCC BY-NC-SA
TamilchaUmumjahon bog'liqliklar, TTBQaramlikCC BY-NC-SA
TeluguUmumjahon bog'liqliklar, MTGQaramlikCC BY-SA
TailandchaNAiST Thai TreebankQaramlikOchiq manbali (GNU umumiy ommaviy litsenziyasi )
TailandchaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
TurkchaODTU-Sabanci turk daraxt daraxtiQaramlikTadqiqot uchun bepul mavjud
TurkchaUmumjahon bog'liqliklar, YO'QQaramlikCC BY-SA
TurkchaUmumjahon bog'liqliklar, GBQaramlikCC BY-SA
TurkchaUmumjahon bog'liqliklar, IMSTQaramlikCC BY-NC-SA
TurkchaUmumjahon bog'liqliklar, PUDQaramlikCC BY-SA
UkrainUkraina instituti, NNTning Oltin standartiQaramlikOchiq manbali (Creative Commons litsenziyasi )
UkrainUmumjahon bog'liqliklar, IUQaramlikCC BY-NC-SA
Yuqori sorbiyUmumjahon bog'liqliklar, UFALQaramlikCC BY-SA
UrduNU-FAST TreebankSo'z birikmasiHisoblashni o'rganish strategiyasi va amaliyoti bilan bog'laning
UrduURDU.KON-TB daraxt bankiFraza va giperga bog'liqlik tuzilishiHisoblashni o'rganish strategiyasi va amaliyoti bilan bog'laning
UrduUmumjahon bog'liqliklar, UDTBQaramlikCC BY-NC-SA
Uyg'urUmumjahon bog'liqliklar, UDTQaramlikCC BY-SA
VetnamUmumjahon bog'liqliklar, VTBQaramlikCC BY-SA
VetnamVetnam TreebankSo'z birikmasiTadqiqot uchun bepul mavjud
VetnamVetnam qaramlik daraxt bankiQaramlikTadqiqot uchun bepul mavjud
WarlpiriUmumjahon bog'liqliklar, UFALQaramlikCC BY-SA
UelschaUmumjahon bog'liqliklar, CCGQaramlikCC BY-SA
VolofUmumjahon bog'liqliklar, WTBQaramlikCC BY-SA
YorubaUmumjahon bog'liqliklar, YTBQaramlikCC BY-SA

Ko'p tilli vazifalar orasidagi keyingi izlanishlarni osonlashtirish uchun ba'zi tadqiqotchilar transchegaralar uchun universal izohlash sxemasini muhokama qildilar. Shu tarzda, odamlar turli xil daraxtzorlar korpuslarining afzalliklaridan foydalanishga yoki birlashtirishga harakat qilishadi. Masalan, qaramlik daraxtlari uchun universal izohlash usuli;[10] va so'z birikmalarining daraxtlar qirralari uchun universal izohlash usuli.[11]

Qidiruv vositalari

Daraxt sohilidan dalillarni olishning asosiy usullaridan biri bu qidiruv vositalari. Ajratilgan korpuslarni qidirish vositalari odatda korpusga qo'llanilgan izohlash sxemasiga bog'liq. Foydalanuvchi interfeyslari kompyuter dasturchilariga yo'naltirilgan ekspressiona asoslangan so'rovlar tizimidan tortib to umumiy tilshunoslarga mo'ljallangan to'liq tadqiqot muhitiga qadar murakkablikda mavjud. Wallis (2008) daraxtlar qirg'og'ini izlash tamoyillarini batafsil muhokama qiladi va ushbu texnika holatini ko'rib chiqadi.[12]

Shuningdek qarang

Adabiyotlar

  1. ^ Aleksandr Klark, Kris Foks va Shalom Lappin (2010). Hisoblash lingvistikasi va tabiiy tillarni qayta ishlash bo'yicha qo'llanma. Vili.
  2. ^ Sampson, G. (2003) "Dendrografning mulohazalari." A. Uilson, P. Rayson va T. Makeneriy (tahr.) "Korpus tilshunosligi Lune: Geoffrey Leech uchun Festschrift, Frankfurt am Main: Piter Lang, pp." .157-184
  3. ^ Haitao Liu, Vey Xuang - Daraxt banklari uchun Xitoyga bog'liqlik sintaksisi tomonidan nashr etilgan Xitoyning aloqa universiteti, tomonidan nashr etilgan (onlayn) Kompyuter tilshunosligi assotsiatsiyasi - kirish vaqti 2020-2-4
  4. ^ Kübler, Sandra; Makdonald, Rayan; Nivre, Joakim (2008-12-18). "Qarama-qarshilikni ajratish". Inson tili texnologiyalari bo'yicha sintez ma'ruzalari. 2 (1): 1–127. doi:10.2200 / s00169ed1v01y200901hlt002.
  5. ^ Kays Dyuklar (2013) Robotik fazoviy buyruqlarning semantik izohlanishi. Til va texnologiyalar konferentsiyasi (LTC). Poznan, Polsha.
  6. ^ Celano, Juzeppe G. A. 2014. Qadimgi Yunonistonga qaramlik daraxt banki 2.0 izohnomasi uchun qo'llanma. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidlines
  7. ^ Mambrini, F. 2016. Qadimgi Yunonistonga qaramlik daraxt banki: Ta'lim muhitida lingvistik izoh. Bodard, G & Romanello, M (tahr.) Echo-Palatadan tashqaridagi raqamli klassikalar: Ta'lim, bilim almashinuvi va jamoatchilikni jalb qilish, Pp. 83–99. London: Ubiquity Press. doi:10.5334 / bat.f
  8. ^ a b v d e f Dag Xag. 2015. Tarixiy lingvistik tadqiqotlarda daraxtzorlar. Carlotta Viti (tahr.), Tarixiy sintaksis istiqbollari, Benjaminlar, 188-202. Oldindan chop etish manzili mavjud http://folk.uio.no/daghaug/historical-treebanks.pdf.
  9. ^ Bamman Devid va boshq. 2008. Lotin daraxt daraxtlarini sintaktik izohlash bo'yicha ko'rsatmalar (1.3-oyat). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidlines.pdf
  10. ^ Makdonald, R .; Nivre, J., Quirmbach-Brundage, Y.; va boshq. "Ko'p tilli tahlil uchun universal bog'liqlik izohi." OChL 2013 materiallari.CS1 maint: bir nechta ism: mualliflar ro'yxati (havola)
  11. ^ Xan, A.L.-F; Vong, D.F.; Chao, L.S .; Lu, Y .; U, L. va Tian, ​​L. (2014). "Ko'p tilli daraxtlar uchun universal iboralar to'plami" (PDF). CCL va NLP-NABD 2014 yildagi ishlar, LNAI 8801, 247–258 betlar. © Springer International Publishing Switzerland. doi:10.1007/978-3-319-12277-9_22.
  12. ^ Uollis, Shon (2008). Daraxtlar va boshqa tuzilgan korpuslarni qidirish. Lyudelingdagi 34-bob, A. & Kytö, M. (tahr.) Korpus tilshunosligi: Xalqaro qo'llanma. Handbücher zur Sprache und Kommunikationswissenschaft seriyali. Berlin: Mouton de Gruyter.