Axborot olish - Information retrieval

Axborot olish (IQ) olish faoliyati axborot tizimi ushbu resurslar to'plamidan olingan ma'lumotga bo'lgan ehtiyoj uchun mos bo'lgan manbalar. Qidiruvlarga asoslanishi mumkin to'liq matnli yoki boshqa tarkibga asoslangan indekslash. Axborotni qidirish - bu hujjatdagi ma'lumotni qidirish, hujjatlarni o'zi qidirish va shuningdek metadata ma'lumotlar va matnlar, tasvirlar yoki tovushlarning ma'lumotlar bazalarini tavsiflovchi.

Avtomatlashtirilgan ma'lumot olish tizimlari chaqirilganlarni kamaytirish uchun ishlatiladi ma'lumotning haddan tashqari yuklanishi. IR tizimi - bu kitoblar, jurnallar va boshqa hujjatlarga kirishni ta'minlaydigan dasturiy ta'minot tizimi; ushbu hujjatlarni saqlaydi va boshqaradi. Veb-qidiruv tizimlari eng ko'zga ko'ringan IQ dasturlari.

Umumiy nuqtai

Axborotni qidirish jarayoni foydalanuvchi tizimga so'rov kiritgandan so'ng boshlanadi. So'rovlar - bu axborotga bo'lgan ehtiyojning rasmiy bayonoti, masalan, veb-qidiruv tizimidagi qidirish satrlari. Axborotni qidirishda so'rov to'plamdagi bitta ob'ektni aniq belgilamaydi. Buning o'rniga, bir nechta ob'ekt, ehtimol turli darajadagi so'rovga mos kelishi mumkin dolzarblik.

Ob'ekt - bu tarkib to'plamidagi ma'lumotlar bilan ifodalanadigan shaxs ma'lumotlar bazasi. Foydalanuvchilarning so'rovlari ma'lumotlar bazasi ma'lumotlariga mos keladi. Ammo, ma'lumotlar bazasining klassik SQL so'rovlaridan farqli o'laroq, ma'lumot olishda qaytarilgan natijalar so'rovga to'g'ri kelishi yoki mos kelmasligi mumkin, shuning uchun natijalar odatda tartiblanadi. Bu reyting natijalar ma'lumotlar bazasini qidirish bilan taqqoslaganda ma'lumot qidirishning asosiy farqidir.[1]

Ga qarab dastur ma'lumotlar ob'ektlari, masalan, matnli hujjatlar, rasmlar,[2] audio,[3] aql xaritalari[4] yoki videolar. Ko'pincha hujjatlarning o'zi to'g'ridan-to'g'ri IR tizimida saqlanmaydi yoki saqlanmaydi, aksincha tizimda surrogatlar tomonidan taqdim etiladi metadata.

Ko'pgina IR tizimlari ma'lumotlar bazasidagi har bir ob'ektning so'rovga qanchalik mos kelishini raqamli hisoblashni amalga oshiradi va moslamalarni ushbu qiymatga qarab tartiblaydi. Keyinchalik yuqori darajadagi ob'ektlar foydalanuvchiga ko'rsatiladi. Agar foydalanuvchi so'rovni yaxshilamoqchi bo'lsa, jarayon takrorlanishi mumkin.[5]

Tarix

... Univac deb nomlangan mashina bor ... bu harflar va raqamlar uzun po'lat lentadagi magnit dog'lar naqshlari sifatida kodlangan. Buning ma'nosi, oldin uning predmet kodi belgisi bo'lgan hujjat matni yozib olinadi ... mashina ... istalgan usulda kodlangan havolalarni daqiqada 120 so'z tezlikda avtomatik ravishda tanlaydi va bosadi.

— J. E. Holmstrom, 1948 yil

Maqolada tegishli ma'lumotlarni qidirish uchun kompyuterlardan foydalanish g'oyasi ommalashtirildi Biz o'ylashimiz mumkin tomonidan Vannevar Bush 1945 yilda.[6] Bush tomonidan taqdim etilgan "statistik mashina" patentidan ilhomlangan ko'rinadi Emanuel Goldberg 1920 va 30-yillarda - filmda saqlangan hujjatlarni qidirib topdi.[7] Axborot qidiradigan kompyuterning birinchi tavsifi 1948 yilda Holmstrom tomonidan tasvirlangan,[8] ning erta eslatilishini batafsil bayon qilgan Univac kompyuter. Avtomatlashtirilgan axborot qidirish tizimlari 1950-yillarda joriy etilgan: hatto 1957 yilgi romantik komediyada ham, Ish stoli. 1960-yillarda birinchi yirik axborot qidirish guruhi tomonidan tashkil etilgan Jerar Salton Kornelda. 1970-yillarga kelib bir necha xil qidirish texnikasi kichik hajmda yaxshi ishlashini ko'rsatdi matn korpuslari masalan, Krenfild kolleksiyasi (bir necha ming hujjatlar).[6] Lockheed Dialog tizimi kabi keng ko'lamli qidirish tizimlari 1970 yillarning boshlarida foydalanishga kirishdi.

1992 yilda AQSh Mudofaa vazirligi Milliy standartlar va texnologiyalar instituti (NIST), homiylik qildi Matnni qidirish bo'yicha konferentsiya (TREC) TIPSTER matnli dasturining bir qismi sifatida. Buning maqsadi juda katta matn to'plamida matnni qidirish metodologiyasini baholash uchun zarur bo'lgan infratuzilmani etkazib berish orqali axborot qidirish jamoatchiligini ko'rib chiqish edi. Ushbu usullar bo'yicha katalizlangan tadqiqotlar o'lchov ulkan korpuslarga. Kirish veb-qidiruv tizimlari juda katta hajmdagi qidirish tizimlariga bo'lgan ehtiyojni yanada oshirdi.

Model turlari

IQ-modellarni turkumlash (tarjima qilingan Germaniyaga kirish, asl manba Dominik Kuropka ).

IQ strategiyalari bo'yicha tegishli hujjatlarni samarali ravishda olish uchun hujjatlar odatda tegishli vakolatxonaga aylantiriladi. Har bir qidirish strategiyasi hujjatlarni taqdim etish maqsadlari uchun o'ziga xos modelni o'z ichiga oladi. O'ngdagi rasm ba'zi bir keng tarqalgan modellarning aloqalarini aks ettiradi. Rasmda modellar ikki o'lchov bo'yicha tasniflanadi: matematik asos va modelning xususiyatlari.

Birinchi o'lchov: matematik asos

Ikkinchi o'lchov: modelning xususiyatlari

  • O'zaro bog'liqliksiz modellar turli xil atamalar / so'zlarni mustaqil sifatida ko'rib chiqing. Ushbu fakt odatda vektor fazoviy modellarida ortogonallik muddatli vektorlarni taxmin qilish yoki an tomonidan ehtimol modellarda mustaqillik muddatli o'zgaruvchilar uchun taxmin.
  • Immanent muddatli o'zaro bog'liqlikka ega modellar atamalar o'rtasidagi o'zaro bog'liqlikni aks ettirishga imkon berish. Ammo ikkita atama o'rtasidagi o'zaro bog'liqlik darajasi modelning o'zi tomonidan belgilanadi. Odatda to'g'ridan-to'g'ri yoki bilvosita olinadi (masalan, tomonidan o'lchovni kamaytirish ) dan birgalikdagi voqea ushbu hujjatlar muddatining barcha hujjatlar to'plamida.
  • Transsendent muddatli o'zaro bog'liqlikka ega modellar atamalar o'rtasidagi o'zaro bog'liqlikni aks ettirishga imkon beradi, ammo ular ikki atama o'rtasidagi o'zaro bog'liqlik qanday aniqlanganligi to'g'risida da'vo qilmaydi. Ikki atama o'rtasidagi o'zaro bog'liqlik darajasi uchun ular tashqi manbaga tayanadi. (Masalan, insoniy yoki murakkab algoritmlar.)

Ishlash va to'g'riligi choralari

Axborot-qidirish tizimini baholash 'bu tizim o'z foydalanuvchilarining axborot ehtiyojlarini qanchalik qondirishini baholash jarayonidir. Umuman olganda, o'lchov qidirilayotgan hujjatlar to'plamini va qidiruv so'rovini ko'rib chiqadi. Uchun mo'ljallangan an'anaviy baholash ko'rsatkichlari Mantiqiy qidirish[tushuntirish kerak ] yoki top-k olish, o'z ichiga oladi aniqlik va eslash. Barcha choralar a haqiqat dolzarblik tushunchasi: har bir hujjat ma'lum bir so'rovga tegishli yoki ahamiyatsiz ekanligi ma'lum. Amalda, so'rovlar bo'lishi mumkin yaramas va dolzarblikning turli xil soyalari bo'lishi mumkin.

Xronologiya

  • Oldin 1900-yillar
    1801: Jozef Mari Jakard ixtiro qiladi Jakkard dastgohi, operatsiyalar ketma-ketligini boshqarish uchun perforatorlardan foydalangan birinchi mashina.
    1880-yillar: Herman Xollerit mashina o'qilishi mumkin bo'lgan vosita sifatida shtamp kartalari yordamida elektr mexanik ma'lumotlar tabulyatorini ixtiro qiladi.
    1890 Xollerit kartalar, tugmachalar va tabulyatorlar qayta ishlash uchun ishlatiladi 1890 yilgi AQSh aholini ro'yxatga olish ma'lumotlar.
  • 1920-1930 yillar
    Emanuel Goldberg fotoelektr xujayralari va mikrofilmali hujjatlar rulolaridagi metama'lumotlarni qidirishda naqshlarni aniqlash vositalaridan foydalangan holda "Statistika mashinasi" ga hujjatlarni qidirish mexanizmiga patent beradi.
  • 1940-1950 yillar
    1940-yillarning oxiri: AQSh harbiylari urush paytida nemislardan olingan ilmiy tadqiqot hujjatlarini indeksatsiya qilish va qidirish muammolariga duch kelishdi.
    1945: Vannevar Bush "s Biz o'ylashimiz mumkin ichida paydo bo'ldi Atlantika oyligi.
    1947: Xans Piter Lun (1941 yildan IBM da muhandis-tadqiqotchi) kimyoviy birikmalarni qidirish uchun mexaniklashtirilgan punch kartochkali tizim ustida ish boshladi.
    1950-yillar: AQShda SSSR bilan "ilmiy bo'shliq" paydo bo'lishidan xavotir kuchayib, moliyalashtirishni rag'batlantirdi va mexanizatsiyalashgan adabiyot izlash tizimlari uchun zamin yaratdi (Allen Kent va boshq.) va takliflarni indekslash ixtirosi (Evgeniya Garfild ).
    1950: "Axborot olish" atamasi tomonidan ishlab chiqilgan Kalvin Muyers.[9]
    1951: Filipp Bagli magistrlik dissertatsiyasida kompyuterlashtirilgan hujjatlarni qidirib topishda birinchi tajribani o'tkazdi MIT.[10]
    1955: Allen Kent qo'shildi Case Western Reserve universiteti va oxir-oqibat Hujjatlar va kommunikatsiyalarni o'rganish markazining dotsentiga aylandi. O'sha yili Kent va uning hamkasblari "American Documentation" da aniqlik va esga olish choralarini tavsiflovchi, shuningdek olinmagan tegishli hujjatlar sonini aniqlash uchun statistik tanlab olish usullarini o'z ichiga olgan IQ tizimini baholash uchun taklif qilingan "asos" ni bayon etgan maqolani chop etishdi.[11]
    1958: Vashingtondagi Ilmiy axborot bo'yicha xalqaro konferentsiyada IR tizimlari aniqlangan muammolarni hal qilish yo'llari sifatida ko'rib chiqildi. Qarang: Ilmiy ma'lumotlar bo'yicha xalqaro konferentsiya materiallari, 1958 yil (Milliy Fanlar Akademiyasi, Vashington, DC, 1959)
    1959: Xans Piter Lun nashr etilgan "Axborot olish uchun hujjatlarni avtomatik kodlash".
  • 1960-yillar:
    1960-yillarning boshlari: Jerar Salton Garvardda IR ustida ish boshladi, keyinchalik Kornellga ko'chib o'tdi.
    1960: Melvin Erl Maron va Jon Lari Kann[12] ACM Journal 7 (3) jurnalida "dolzarbligi, ehtimollik indeksatsiyasi va ma'lumotlarni qidirish to'g'risida" nashr etilgan: 216–244, 1960 yil iyul.
    1962:
    • Kiril V. Kliverdon IR tizimini baholash modelini ishlab chiqqan Krenfild tadqiqotlarining dastlabki natijalarini e'lon qildi. Qarang: Kiril V. Kliverdon, "Indekslash tizimlarining qiyosiy samaradorligi bo'yicha tekshiruvni sinovdan o'tkazish va tahlil qilish to'g'risida hisobot". Kranfild aeronavtika to'plami, Krenfild, Angliya, 1962 yil.
    • Kent nashr etildi Axborotni tahlil qilish va qidirish.
    1963:
    • Vaynbergning "Ilm-fan, hukumat va axborot" ma'ruzasida "ilmiy axborot inqirozi" g'oyasi to'liq ifoda etilgan. Hisobot doktor nomi bilan atalgan. Alvin Vaynberg.
    • Jozef Beker va Robert M. Xeys ma'lumot olish bo'yicha nashr etilgan matn. Beker, Jozef; Xeys, Robert Mayo. Axborotni saqlash va qidirish: vositalar, elementlar, nazariyalar. Nyu-York, Vili (1963).
    1964:
    • Karen Spark Jons Kembrijdagi dissertatsiyasini tugatdi, Sinonimiya va semantik tasnifva davom etdi hisoblash lingvistikasi u IQga tegishli.
    • The Milliy standartlar byurosi "Mexaniklashtirilgan hujjatlashtirish uchun statistika birlashmasi usullari" nomli simpozium homiysi. Bir qator juda muhim hujjatlar, shu jumladan G. Saltonning birinchi nashr qilingan ma'lumotnomasi (biz ishonamiz) Aqlli tizim.
    1960-yillarning o'rtalari:
    • Milliy tibbiyot kutubxonasi rivojlandi Medlar Tibbiy adabiyotni tahlil qilish va qidirish tizimi, mashinada o'qiladigan birinchi yirik ma'lumotlar bazasi va ommaviy-qidiruv tizimi.
    • MIT da Intrex loyihasi.
    1965: J. C. R. Licklider nashr etilgan Kelajak kutubxonalari.
    1966: Don Swanson Chikago universitetida bo'lajak kataloglarga talablar bo'yicha o'qish bilan shug'ullangan.
    1960-yillarning oxiri: F. Uilfrid Lankaster MEDLARS tizimining baholash ishlarini yakunladi va ma'lumot olish bo'yicha matnining birinchi nashrini nashr etdi.
    1968:
    • Jerar Salton nashr etdi Avtomatik axborotni tashkil etish va qidirish.
    • Kichik Jon Sammonning RADC Tech hisobotida "Axborotni saqlash va qidirishning ba'zi matematikalari ..." vektor modeli ko'rsatilgan.
    1969: Sammon "Ma'lumotlar tuzilishini tahlil qilish uchun chiziqli bo'lmagan xaritalash "(IEEE Transmissions on Computers) IQ tizimiga vizual interfeys bo'yicha birinchi taklif edi.
  • 1970-yillar
    1970-yillarning boshlari:
    • Birinchi onlayn tizimlar - NLM ning AIM-TWX, MEDLINE; Lockheed dialogi; SDC ORBIT.
    • Teodor Nelson tushunchasini targ'ib qilish gipermatn, nashr etilgan Kompyuter Lib / Dream Machines.
    1971: Nikolas Jardin va Cornelis J. van Rijsbergen nashr etilgan "foydalanish ierarxik klasterlash "klaster gipotezasi" ni ifoda etgan ma'lumotni qidirishda ".[13]
    1975: Saltonning uchta juda ta'sirli nashrlari uning vektorlarni qayta ishlash doirasini to'liq ifoda etdi muddatli diskriminatsiya model:
    • Indekslash nazariyasi (Sanoat va amaliy matematika jamiyati)
    • Avtomatik matn tahlilida atamalarning ahamiyati nazariyasi (JASIS 26-oyat)
    • Avtomatik indekslash uchun vektorli kosmik model (CACM 18:11)
    1978: Birinchi ACM SIGIR konferensiya.
    1979: C. J. van Rijsbergen nashr etilgan Axborot olish (Butterworths). Ehtimoliy modellarga katta ahamiyat beriladi.
    1979: Tamas Doszkocs CITE dasturini amalga oshirdi tabiiy til foydalanuvchi interfeysi Milliy tibbiyot kutubxonasida MEDLINE uchun. CITE tizimi bepul so'rovlarni kiritishni qo'llab-quvvatladi, reyting natijalari va dolzarbligi haqida mulohazalarni bildirdi.[14]
  • 1980-yillar
    1980: Birinchi xalqaro ACM SIGIR konferentsiyasi, Kembrijdagi British Computer Society IR guruhi bilan birgalikda.
    1982: Nikolas J. Belkin, Robert N. Oddi va Xelen M. Bruks ma'lumot olish uchun ASK (Bilimning g'ayritabiiy holati) nuqtai nazarini taklif qildilar. Bu muhim kontseptsiya edi, ammo ularning avtomatlashtirilgan tahlil vositasi oxir-oqibat umidsizlikka uchradi.
    1983: Salton (va Maykl J. Makgill) nashr etilgan Zamonaviy axborot izlashga kirish (McGraw-Hill), vektor modellariga katta e'tibor qaratgan.
    1985: Devid Bler va Bill Maron nashr eting: To'liq matnli hujjat-qidirish tizimi uchun qidiruv samaradorligini baholash
    1980-yillarning o'rtalarida: Tijorat IR tizimlarining oxirgi foydalanuvchi versiyalarini ishlab chiqish bo'yicha harakatlar.
    1985–1993: Vizual interfeyslar uchun eksperimental tizimlar haqida asosiy hujjatlar.
    Ishlash Donald B. Crouch, Robert R. Korfhage, Metyu Chalmers, Anselm Spoerri va boshqalar.
    1989: Birinchidan Butunjahon tarmog'i tomonidan takliflar Tim Berners-Li da CERN.
  • 1990-yillar
    1992: Birinchidan TREC konferensiya.
    1997: Nashr Korfhage "s Axborotni saqlash va qidirish[15] vizualizatsiya va ko'p ma'lumotli tizim tizimlariga e'tiborni qaratgan holda.
    1999: Nashr Rikardo Baeza-Yeyts va Bertier Ribeyro-Netoning Zamonaviy axborot qidirish Barcha IQni qamrab olishga harakat qilgan birinchi kitob - Addison Uesli tomonidan.
    1990-yillarning oxiri: Veb-qidiruv tizimlari ilgari faqat eksperimental IQ tizimlarida mavjud bo'lgan ko'plab xususiyatlarni amalga oshirish. Qidiruv motorlar IQ modellarining eng keng tarqalgan va ehtimol eng yaxshi instansiyasiga aylanadi.

Katta konferentsiyalar

Ushbu sohadagi mukofotlar

Shuningdek qarang

Adabiyotlar

  1. ^ Jansen, B. J. va Rieh, S. (2010) Axborot qidirish va ma'lumot olishning o'n etti nazariy konstruktsiyasi Arxivlandi 2016-03-04 da Orqaga qaytish mashinasi. Amerika Axborot fanlari va texnologiyalari jamiyati jurnali. 61 (8), 1517-1534.
  2. ^ Goodrum, Ebbi A. (2000). "Tasvirga oid ma'lumotlarni qidirish: hozirgi tadqiqotlarga umumiy nuqtai". Ilm haqida ma'lumot berish. 3 (2).
  3. ^ Foote, Jonathan (1999). "Ovoz ma'lumotlarini qidirishga umumiy nuqtai". Multimedia tizimlari. 7: 2–10. CiteSeerX  10.1.1.39.6339. doi:10.1007 / s005300050106. S2CID  2000641.
  4. ^ Beel, Jo'ran; Gipp, Bela; Stiller, Jan-Olaf (2009). Aql-idrok xaritalarida ma'lumot olish - bu nimaga foydali bo'lishi mumkin?. Hamkorlikda hisoblash bo'yicha 5-xalqaro konferentsiya materiallari: tarmoq, dasturlar va ish almashish (CollaborateCom'09). Vashington, DC: IEEE. Arxivlandi asl nusxasi 2011-05-13 kunlari. Olingan 2012-03-13.
  5. ^ Frakes, Uilyam B.; Baeza-Yeyts, Rikardo (1992). Axborot olish ma'lumotlari tuzilmalari va algoritmlari. Prentice-Hall, Inc. ISBN  978-0-13-463837-9. Arxivlandi asl nusxasi 2013-09-28.
  6. ^ a b Singhal, Amit (2001). "Zamonaviy axborot izlash: qisqacha sharh" (PDF). Ma'lumotlarni muhandisligi bo'yicha IEEE Kompyuter Jamiyati Texnik Qo'mitasining Axborotnomasi. 24 (4): 35–43.
  7. ^ Mark Sanderson va V. Bryus Kroft (2012). "Axborot qidirish tadqiqotlari tarixi". IEEE ish yuritish. 100: 1444–1451. doi:10.1109 / jproc.2012.2189916.
  8. ^ JE Xolmstrom (1948). "'III bo'lim. Yalpi majlisni ochish ". Qirollik jamiyati ilmiy-ma'lumot konferentsiyasi, 1948 yil 21-iyun-2-iyul: Hisobot va maqolalar taqdim etildi: 85.
  9. ^ Moers, Kalvin N.; Raqamli bo'lmagan ma'lumotlarga raqamli ishlov berish nazariyasi va uning mashina iqtisodiyotiga ta'siri (Zator Texnik Byulleteni № 48), keltirilgan Fairthorne, R. A. (1958). "Yozib olingan ma'lumotni avtomatik qidirish". Kompyuter jurnali. 1 (1): 37. doi:10.1093 / comjnl / 1.1.36.
  10. ^ Doyl, Loren; Beker, Jozef (1975). Axborotni qidirish va qayta ishlash. Melvill. 410 bet. ISBN  978-0-471-22151-7.
  11. ^ Perri, Jeyms V.; Kent, Allen; Berri, Medeline M. (1955). "X. Mashinaviy adabiyotni izlash. Mashina tili; uni ishlab chiqish va ishlab chiqish asoslari". Amerika hujjatlari. 6 (4): 242–254. doi:10.1002 / asi.5090060411.
  12. ^ Maron, Melvin E. (2008). "Ehtimollar indeksatsiyasining kelib chiqishi to'g'risida tarixiy eslatma" (PDF). Axborotni qayta ishlash va boshqarish. 44 (2): 971–972. doi:10.1016 / j.ipm.2007.02.012.
  13. ^ N. Jardin, CJ van Raysbergen (1971 yil dekabr). "Axborot olishda ierarxik klasterdan foydalanish". Axborotni saqlash va qidirish. 7 (5): 217–240. doi:10.1016/0020-0271(71)90051-9.
  14. ^ Doszkocs, T.E. & Rapp, B.A. (1979). "MEDLINE-ni ingliz tilida qidirish: foydalanuvchi prototipi, tabiiy til so'rovi, reyting natijalari va aloqadorligi to'g'risida", In: ASIS yillik yig'ilishi materiallari, 16: 131-139.
  15. ^ Korfhage, Robert R. (1997). Axborotni saqlash va qidirish. Vili. pp.368 bet. ISBN  978-0-471-14338-3.

Qo'shimcha o'qish

Tashqi havolalar