HOCR - HOCR

HOCR dan olingan formatlangan matn uchun ma'lumotlarni taqdim etishning ochiq standartidir optik belgilarni aniqlash (OCR). Ta'rif matn, uslub, tartib ma'lumotlari, ishonchni aniqlash ko'rsatkichlari va boshqa ma'lumotlarni kodlaydi Kengaytiriladigan belgilash tili Shaklida (XML) Gipermatnni belgilash tili (HTML) yoki XHTML.[1]

Dasturiy ta'minot

Quyidagi OCR dasturi tanib olish natijasini hOCR fayli sifatida chiqarishi mumkin:

Misol

Quyidagi misol hOCR faylining ko'chirmasi:

...<p sinf='ocr_par' lang="deu" sarlavha="bbox930">  <oraliq sinf='ocr_line' sarlavha="bbox 348 797 1482 838; boshlang'ich -0.009 -6">    <oraliq sinf='ocrx_word' sarlavha='bbox 348 805 402 832; x_wconf 93 '>O'l</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 421 804 697 832; x_wconf 90 '>Darlehenssumme</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 717 803 755 831; x_wconf 96 '>ist</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 773 803 802 831; x_wconf 96 '>yilda</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 821 803 917 830; x_wconf 96 '>ihrem</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 935 799 1180 838; x_wconf 95 '>ursprünglichen</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 1199 797 1343 832; x_wconf 95 '>Umfange</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 1362 805 1399 823; x_wconf 95 '>zu</oraliq>     <oraliq sinf='ocrx_word' sarlavha='bbox 1417 x_wconf 96'>ver-</oraliq>   </oraliq>  ...

E'tirof etilgan matn HTML-faylning oddiy matn tugunlarida saqlanadi, alohida satrlar va so'zlarga tarqatish bu erda atrof-muhit tomonidan berilgan. oraliq teglar. Bundan tashqari, odatdagi HTML sub'ektlaridan foydalaniladi, masalan p xatboshi uchun yorliq. Qo'shimcha ma'lumotlar quyidagi xususiyatlarga beriladi:

  • "ocr_par", "ocr_line", "ocrx_word" kabi turli xil tartib elementlari
  • har bir element uchun geometrik ma'lumot, "bbox" chegaralangan qutisi bilan
  • til ma'lumotlari "lang"
  • ba'zi ishonch qiymatlari "x_wconf"

Shuningdek qarang

  • ALTO (XML) - OCR ma'lumotlarini taqdim etishning yana bir formati

Adabiyotlar

  1. ^ Breuel, T. (2007-09-01). "OCR ish oqimi va natijalari uchun hOCR Microformat". Hujjatlarni tahlil qilish va tan olish bo'yicha to'qqizinchi xalqaro konferentsiya (ICDAR 2007). 2: 1063–1067. doi:10.1109 / ICDAR.2007.4377078. ISBN  978-0-7695-2822-9.

Tashqi havolalar