Apache Tika - Apache Tika

Tika
Tika logotipi
Tuzuvchi (lar)Apache dasturiy ta'minot fondi
Barqaror chiqish
1.24.1 / 2020 yil 21-aprel; 7 oy oldin (2020-04-21)
OmborTika ombori
YozilganJava
Operatsion tizimO'zaro faoliyat platforma
TuriQidirmoq va indeks API
LitsenziyaApache litsenziyasi 2.0
Veb-sayttika.apache.org

Apache Tika tarkibni aniqlash va tahlil ramka, yilda yozilgan Java, boshqaruvchisi Apache dasturiy ta'minot fondi.[1] U metadata va matnni mingdan ortiq turli xil ma'lumotlarni aniqlaydi va chiqaradi fayl turlari va shuningdek, a Java kutubxonasi, boshqa dasturlash tillaridan foydalanish uchun mos bo'lgan server va buyruq qatorlari nashrlariga ega.

Tarix

Loyiha Apache Nutch kod bazasi, qachon tarkibni aniqlash va ajratib olishni ta'minlash sudralib yurish. 2007 yilda u yanada kengayadigan va foydalanishga yaroqli bo'lishi uchun uni ajratib qo'yishdi tarkibni boshqarish tizimlari, boshqa Veb-brauzerlar va ma'lumot olish tizimlari. Mustaqil Tika asoschisi Jerom Charron, Kris Mettmann va Jukka Zitting.[2] 2011 yilda Kris Mettmann va Jukka Zitting Menning "Tika in Action" kitobini chiqardilar va loyiha 1.0 versiyasini chiqardi.

Xususiyatlari

Tika fayllaridan 1400 dan ortiq fayl turlarini aniqlash imkoniyatlarini taqdim etadi Internet tomonidan tayinlangan raqamlar vakolati taksonomiyasi MIME turlari. Ko'proq keng tarqalgan va ommabop formatlar uchun[3] Keyinchalik Tika tarkibni chiqarish, metama'lumotlarni chiqarish va tilni aniqlash imkoniyatlarini beradi.

Bundan tashqari, yordamida tasvirlardan matn olish mumkin OCR dasturiy ta'minot Tesserakt.[4]

Tika yozilgan bo'lsa-da Java, boshqa tillardan keng foydalaniladi.[5] The RESTful server va CLI vositasi Java-ga tegishli bo'lmagan dasturlarga Tika funktsiyalariga kirishga ruxsat berish.

Taniqli foydalanish

Tika moliya institutlari tomonidan, shu jumladan Fair Isaac korporatsiyasi (FICO),[6] Goldman Sachs,[7] NASA va akademik tadqiqotchilar[8] va shu jumladan tarkibni boshqarish bo'yicha asosiy tizimlar Drupal,[9] va Alfresko (dasturiy ta'minot)[10] katta miqdordagi tarkibni tahlil qilish va uni ma'lumot olish texnikasi yordamida umumiy formatlarda taqdim etish.

2016 yil 4 aprelda[11] Forbes Tika 400 dan ortiq jurnalistlar tomonidan ishlatilgan 11,5 million hujjatlarni tahlil qilishda foydalanilgan asosiy texnologiyalardan biri sifatida tan olingan maqolani chop etdi ofshorlarda dunyo davlatlari rahbarlari ishtirokidagi xalqaro mojaroni fosh qilgan qobiq korporatsiyalari. Oqib chiqqan hujjatlar va ularni tahlil qilish loyihasi Panama hujjatlari.

Shuningdek qarang

Adabiyotlar

  1. ^ "Apache Tika". Olingan 2016-04-15.
  2. ^ "Tika taklifi". Olingan 2016-04-15.
  3. ^ "Apache Software Foundation". Apache Tika formatlari sahifasi. Olingan 16 aprel 2016.
  4. ^ "TikaOCR". Apache Tika. 2019-03-26. Olingan 2019-12-02.
  5. ^ "Tika uchun API biriktirmalari". Apache Tika. Olingan 2016-04-17.
  6. ^ "FICO Kaggle's 180,000 Data Scientist jamoasini FICO Analytic Cloud | FICO® da innovatsiyalarni rivojlantirish uchun jalb qiladi". FICO® | Qarorlar. Arxivlandi asl nusxasi 2016-06-03 da. Olingan 2016-04-15.
  7. ^ "Goldman Sachs elastik qidiruvni ishga tushiradi - InformationWeek". InformationWeek. Olingan 2017-06-21.
  8. ^ "Apache Tika yordamida qutbli ma'lumotlarni o'rganish". Opensource.com. Olingan 2016-04-15.
  9. ^ "Tika yordamida Drupal uchun matnli ko'chirma | Drupal.org". www.drupal.org. Olingan 2016-04-15.
  10. ^ "Apache Tika bilan kontentni o'zgartirish va metadata chiqarish - alfrescowiki". wiki.alfresco.com. Olingan 2016-04-15.
  11. ^ Tulki-Brewster, Tomas. "Shifrlangan disklardan Amazon bulutiga - Panama qog'ozlarining ajoyib parvozi". Forbes. Olingan 2016-04-15.