Hujjatlar maketini tahlil qilish - Document layout analysis

Yilda kompyuterni ko'rish yoki tabiiy tilni qayta ishlash, hujjatlarning joylashishini tahlil qilish ni aniqlash va toifalarga ajratish jarayonidir qiziqadigan mintaqalar ichida skanerdan o'tkazildi matnli hujjat tasviri. O'qish tizimi matn zonalarini matnli bo'lmagan qismlardan ajratishni va ularni to'g'ri o'qish tartibida joylashtirishni talab qiladi.[1] Turli zonalarni (yoki bloklarni) aniqlash va belgilash matn tanasi, rasmlar, matematik belgilar, va hujjatga kiritilgan jadvallar deyiladi geometrik maket tahlili.[2] Ammo matn zonalari hujjat ichida turli xil mantiqiy rollarni bajaradi (sarlavhalar, sarlavhalar, izohlar va boshqalar) va bu kabi semantik yorliqlar mantiqiy tartib tahlili.

Hujjatlar maketini tahlil qilish - bu geometrik va mantiqiy yorliqlarning birlashishi. Odatda hujjat tasvirini an-ga yuborishdan oldin amalga oshiriladi OCR Dvigatel, lekin undan katta arxivlarda bir xil hujjatning takroriy nusxalarini aniqlash yoki hujjatlarni ularning tuzilishi yoki rasm tarkibiga ko'ra indekslash uchun ham foydalanish mumkin.

Hujjatlar tartibi rasmiy ravishda xalqaro standartda belgilanadi ISO 8613-1:1989.

Usullarga umumiy nuqtai

Hujjatlar maketini tahlil qilishda ikkita asosiy yondashuv mavjud. Birinchidan, bor ostin-ustin xom piksel ma'lumotlariga asoslangan hujjatni takroriy ravishda tahlil qiladigan yondashuvlar. Ushbu yondashuvlar, avvalambor, hujjatni oq va qora ranglarning bog'langan mintaqalarida tahlil qiladi, so'ngra ushbu mintaqalar so'zlarga, so'ngra matn satrlariga va nihoyat matn bloklariga bo'linadi.[3][4] Ikkinchidan, bor tepadan pastga oq bo'shliq va geometrik ma'lumotlarga asoslanib, hujjatni ustunlar va bloklarga iterativ ravishda kesishga urinishlar.[4]

Pastdan yuqoriga qarab yondashish an'anaviy usullar bo'lib, ular afzalliklarga ega, chunki ular hujjatning umumiy tuzilishi bo'yicha taxminlarni talab qilmaydi. Boshqa tomondan, pastdan yuqoriga qarab yondashish takroriy segmentatsiya va klasterlashni talab qiladi, bu esa ko'p vaqt talab qilishi mumkin.[4] Yuqoridan pastga yo'naltirilgan yondashuvlar yangi va afzalligi shundaki, ular hujjatning global tuzilishini to'g'ridan-to'g'ri tahlil qiladi, shu bilan hujjatda paydo bo'ladigan yuzlab yoki hatto minglab belgilar / belgilarni takroriy ravishda klasterlash zaruratini yo'q qiladi. Ular tezroq ishlashga moyil, ammo ularning barqaror ishlashi uchun ular odatda hujjat tartibi to'g'risida bir qator taxminlarni talab qiladi.[4]Hujjatlar maketini tahlil qilishda har qanday yondashuvga xos ikki masala mavjud: shovqin va qiyshiqlik. Shovqin, masalan, tasvir shovqiniga ishora qiladi tuz va qalampir shovqini yoki Gauss shovqini. Skew hujjat rasmini matn satrlari to'liq gorizontal bo'lmasligi uchun aylantirilishi mumkinligini anglatadi. Bu ikkala hujjat tartibini tahlil qilish algoritmlarida va optik belgilarni aniqlash hujjat rasmidagi belgilar matn satrlari gorizontal holatga keltirilganligi uchun yo'naltirilganligi algoritmlari. Shuning uchun, agar qiyshiqlik mavjud bo'lsa, unda hujjat rasmini olib tashlash uchun uni aylantirish kerak.

Shundan kelib chiqadiki, har qanday hujjat tartibini tahlil qilish kodidagi birinchi qadamlar tasvir shovqinini olib tashlash va hujjatning egilish burchagi uchun taxmin qilishdir.

Pastdan yuqoriga yondoshishga misol

Ushbu bo'limda biz 1993 yilda O'Gorman tomonidan ishlab chiqilgan hujjat maketini tahlil qilish algoritmining qadamlarini ko'rib chiqamiz.[3] Ushbu yondashuv bosqichlari quyidagicha:

  1. Gauss va sho'r-qalampir shovqinlarini olib tashlash uchun rasmni oldindan qayta ishlang. E'tibor bering, ba'zi shovqinlarni yo'qotish filtrlari vergul va nuqtalarni shovqin deb hisoblashi mumkin, shuning uchun biroz ehtiyot bo'lish kerak.
  2. Rasmni a ga aylantiring ikkilik rasm, ya'ni har bir piksel qiymatini to'liq oq yoki to'liq qora rangga aylantirish.
  3. Rasmni qora piksellarning ulangan qismlariga ajratib oling. Bular belgilar tasvirning. Har bir belgi uchun cheklangan qutini va centroid-ni hisoblang.
  4. Har bir belgi uchun uni aniqlang k eng yaqin qo'shnilar bu erda k - to'rtdan katta yoki teng bo'lgan butun son. O`Gorman o'z maqolasida k = 5 ni mustahkamlik va tezlik o'rtasida yaxshi murosaga keltirishni taklif qiladi. Hech bo'lmaganda k = 4 dan foydalanishning sababi shundaki, hujjatdagi belgi uchun eng yaqin ikki yoki uchta belgi xuddi shu matn satrida uning yonidagi belgilar hisoblanadi. To'rtinchi eng yaqin belgi odatda yuqoridan yoki pastdan bir chiziqda joylashgan bo'lib, ushbu belgilarni quyidagilar uchun eng yaqin qo'shni hisobiga kiritish muhimdir.
  5. Har bir eng yaqin qo'shni juftlik ramzi bir belgining sentroididan ikkinchisining sentroidiga ishora qiluvchi vektor bilan bog'liq. Agar ushbu vektorlar har bir eng yaqin qo'shni ramzlari uchun chizilgan bo'lsa, u holda dokstrum hujjat uchun (Quyidagi rasmga qarang). Ikkala yaqin qo'shni ramzlari orasidagi gorizontal va D masofadan Θ burchakdan foydalanib, eng yaqin qo'shni burchak va eng yaqin qo'shni masofa gistogrammasini yaratish mumkin.
  6. Eng yaqin qo'shni burchak gistogrammasi yordamida hujjatning egri chizig'ini hisoblash mumkin. Agar qiyshiqlik maqbul darajada past bo'lsa, keyingi bosqichga o'ting. Agar u bo'lmasa, qiyshayishni olib tashlash va 3-bosqichga qaytish uchun rasmni aylantiring.
  7. Eng yaqin qo'shni masofa gistogrammasida bir nechta tepaliklar mavjud va bu tepaliklar odatda belgilar orasidagi bo'shliq, so'zlar oralig'i va chiziqlar oralig'ini aks ettiradi. Ushbu qiymatlarni gistogrammadan hisoblang va ularni bir chetga qo'ying.
  8. Har bir belgi uchun uning yaqin qo'shnilariga qarang va har qanday belgi oralig'idagi masofa yoki so'zlar oralig'idagi masofaga nisbatan biron bir masofani belgilang. Belgilangan har bir eng yaqin qo'shni belgisi uchun ularning markazlarini birlashtirgan chiziq segmentini chizish.
  9. Qo'shnilariga chiziq segmentlari orqali bog'langan belgilar paydo bo'ladi matn satrlari. Matn satridagi barcha tsentroidlardan foydalanib, chiziqli regressiya bilan matn satrini aks ettiruvchi chiziqli segmentni hisoblash mumkin. Bu juda muhim, chunki matn satridagi belgilarning barcha tsentroidlari aslida kollinear bo'lishi ehtimoldan yiroq emas.
  10. Matn satrlarining har bir juftligi uchun mos keladigan satr segmentlari orasidagi minimal masofani hisoblash mumkin. Agar bu masofa 7-bosqichda hisoblangan satrlar oralig'ining bir oz bardoshliligida bo'lsa, u holda ikkita matn satri bir xil matn bloki.
  11. Va nihoyat, har bir matn bloki uchun chegaralangan maydonchani hisoblash mumkin va hujjat joylashuvi tahlili tugallangan.

Layout tahlil dasturi

  • OCRopus - C ++ va Python-da va FreeBSD, Linux va Mac OS X-da amalga oshirilgan bepul hujjat tartibini tahlil qilish va OCR tizimi. Ushbu dastur plagin arxitekturasini qo'llab-quvvatlaydi. algoritmlar.
  • OCRFeeder - pythonda yozilgan Linux uchun OCR to'plami, shuningdek hujjatlarning joylashishini tahlil qilishni qo'llab-quvvatlaydi. Ushbu dastur faol ravishda ishlab chiqilmoqda va bepul va ochiq manbaga ega.

Shuningdek qarang

Tashqi havolalar

Qo'shimcha o'qish

  • O'Gorman, L. (1993). "Sahifa tartibini tahlil qilish uchun hujjatlar spektri". Naqshli tahlil va mashina intellekti bo'yicha IEEE operatsiyalari. 15 (11): 1162–1173. doi:10.1109/34.244677.
  • Simon, A .; Pret, J.-C .; Jonson, AP (1997). "Hujjatlar maketini pastdan yuqoriga qarab tahlil qilishning tezkor algoritmi". Naqshli tahlil va mashina intellekti bo'yicha IEEE operatsiyalari. 19 (3): 273–277. doi:10.1109/34.584106.
  • Seong-Uan Li; Da-Seok Ryu (2001). "Parametrsiz geometrik hujjat maketini tahlil qilish". Naqshli tahlil va mashina intellekti bo'yicha IEEE operatsiyalari. 23 (11): 1240–1256. doi:10.1109/34.969115.
  • Dengel, Andreas; Bart, Gerxard (1989). "ANASTASIL: hujjatlarning joylashishini tahlil qilish uchun bilimga asoslangan gibrid tizim". Ijcai'89: 1249-1254. Iqtibos jurnali talab qiladi | jurnal = (Yordam bering)

Adabiyotlar

  1. ^ Berd, K.S. (1992 yil iyul). "Ko'p qirrali sahifa o'quvchining anatomiyasi". IEEE ish yuritish. 80 (7): 1059–1065. CiteSeerX  10.1.1.40.8060. doi:10.1109/5.156469.
  2. ^ Kattoni, R .; Coianis, T .; Messelodi, S .; Modena, C. M. "Hujjat tasvirini tushunish uchun geometrik joylashishni tahlil qilish usullari: sharh". Iqtibos jurnali talab qiladi | jurnal = (Yordam bering)
  3. ^ a b O'Gorman, L. (1993). "Sahifa tartibini tahlil qilish uchun hujjatlar spektri". Naqshli tahlil va mashina intellekti bo'yicha IEEE operatsiyalari. 15 (11): 1162–1173. doi:10.1109/34.244677.
  4. ^ a b v d Seong-Uan Li; Da-Seok Ryu (2001). "Parametrsiz geometrik hujjat maketini tahlil qilish". Naqshli tahlil va mashina intellekti bo'yicha IEEE operatsiyalari. 23 (11): 1240–1256. CiteSeerX  10.1.1.574.7875. doi:10.1109/34.969115.