1 / 17

INDEXING

INDEXING. Teknik Informatika Universitas Trunojoyo Semester Genap 2011-2012. INDEXING. INVERTED FILES SUFFIX TREE & SUFFIX ARRARYS SIGNATURE FILES. INVERTED FILES. Terdiri dari Vocabulary (kata) daftar kata yang berbeda dari sebuah object kalimat/document Occurrences (kemunculan)

anahid
Download Presentation

INDEXING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. INDEXING Teknik Informatika Universitas Trunojoyo Semester Genap 2011-2012

  2. INDEXING • INVERTED FILES • SUFFIX TREE & SUFFIX ARRARYS • SIGNATURE FILES

  3. INVERTED FILES • Terdiri dari • Vocabulary (kata) daftar kata yang berbeda dari sebuah object kalimat/document • Occurrences (kemunculan) Daftar posisi kemunculan dalam database dari masing-masing kata

  4. Contoh INVERTED FILES • Kebutuhan penyimpanan vocabulary lebih kecil • Kemunculan banyak kata mempengaruhi besarnya penyimpanan apalagi kalau tiap kemunculan harus ditampilkan

  5. INVERTED FILES – Block Addressing • Suatu teknik yang digunakan untuk menguraingi kebutuhan penyimpanan, dengn jalan: • Membagi text menjadi beberapa block • Occurance mengacu pada block • Kelebihan • Mengurangi jumlah pointers • Selluruh kemunculan kata dalam single block digabung dalam satu reference yaitu block

  6. Contoh Block Addressing

  7. Index Size

  8. INVERTED FILES Searching • Model pencarian yang dapat dilakukan • Single Word Query  diakhiri dengan ditemukannya daftar dari posisi kata yang dicari • Context Query lebih jika sulit dilakukan dengan inverted files

  9. INVERTED FILES Search Algorithm • Vocabulary Search • Kata atau paterns query dicari dalam vocabulary • Frase dan kedekatan kata query dibagi menjadi single word • Retrieval of Occurances • Daftar posisi dari kata yang ditemukan ditampilkan • Manipulation of Occurances • Daftar posisi diproses lagi untuk menemukan kata kedekatan atau operasi boolean • Jika block addressing digunakan, maka butuh pencarian text langsung untuk menemukan kesalahan informasi dalam occurances

  10. INVERTED FILES - construction

  11. Construction – Large Text

  12. Suffix Tree • Melihat text sebagai sebuah sting yang panjang, setiap posisi dalam text diawali sebuah suffix text, dan setiap suffix text ditandai dengan posisi yang uniq

  13. Suffix Trees Structure

  14. Suffix Array

  15. Supra Indices – Suffix Array

  16. Signature Files

  17. Implementasi pd IR Model • INVERTED FILES • Vocabulary & Occurrences • Position index • SUFFIX TREE & SUFFIX ARRAY • Phrase search & Keyword search • SIGNATURE FILES • Efficient

More Related