Model capaian maklumat
This presentation is the property of its rightful owner.
Sponsored Links
1 / 26

Model Capaian Maklumat PowerPoint PPT Presentation


  • 185 Views
  • Uploaded on
  • Presentation posted in: General

Model Capaian Maklumat. Model Capaian Maklumat Model Boolean Model Ruang Vektor. Model Capaian Maklumat. Model capaian maklumat merupakan kerangka formal yang menyokong semua fasa utama dalam proses capaian maklumat termasuk Perwakilan item (dokumen) Perwakilan kepada kehendak pengguna

Download Presentation

Model Capaian Maklumat

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Model capaian maklumat

Model Capaian Maklumat

Model Capaian Maklumat

Model Boolean

Model Ruang Vektor


Model capaian maklumat1

Model Capaian Maklumat

  • Model capaian maklumat merupakan kerangka formal yang menyokong semua fasa utama dalam proses capaian maklumat termasuk

    • Perwakilan item (dokumen)

    • Perwakilan kepada kehendak pengguna

    • Padanan kehendak dan item

    • Pangkatan capaian item

  • Kerangka formal yang telah dicadangkan termasuk

    • Teori set, boolean algebra, linear algebra, probability, fuzzy set theory, neural networks, Bayesian networks dan banyak lagi

  • Perbincangan akan meliputi

    • Model Boolean, model ruang vektor dan latent semantic indexing


Model umum

Model Umum

  • D : set perwakilan dokumen

  • Q : set perwakilan kehendak pengguna (kueri)

  • R : D x Q  real numbers

    fungsi yang akan menentukan bagi setiap dokumen dan kueri suatu nombor tertentu (real number) bagi diwakili oleh suatu pangkatan (berkaitan) dokumen berdasarkan kueri yang dimasukkan.


Model boolean

Model Boolean

  • Dokumen diwakilkan dalam bentuk satu set katakunci. kata kunci hanya dinyatakan sama ada ujud atau tiada di dalam sesuatu dokumen

  • Kueri : dinyatakan dalam ungkapan katakunci yang dihubungkan dengan and, or dan not , termasuk penggunaan kurungan untuk penilaian berdasarkan kepentingan.

  • Pangkatan : bagi setiap term indeks ki set dokumen Dki dimana ki ujud : Dki = {dj | Wi,j = 1} dan ungkapan boolean boleh diungkapkan dalam bentuk set-theoritik

    • Setiap term ki digantikan dengan set Dki

    • Operator boolean and (), or () dan not () dan juga operator tindanan() , penyatuan () dan pelengkap (~)

    • Hasil capaian adalah set yang berkaitan dan yang selebihnya tidak berkaitan


Operator boolean

Operator Boolean

  • Q1 AND Q2

    • Documents that are in BOTH sets: Q1 and Q2

  • Q1 OR Q2

    • Documents that are in at least in one set: Q1 or Q2

  • NOT Q1

    • All documents except the one in set Q1

  • Q1 \ Q2

    • Logical “minus” all documents from Q1 except those that belong to Q2

    • Used also as “binary NOT” (Q1 NOT Q2)

  • Q1 XOR Q2

    • Exclusive OR - documents that belong to exactly one set: Q1 or Q2, but not both

    • In other words (Q1 OR Q2) \ (Q1 AND Q2)


Contoh

Contoh :

  • Dapatkan semua dokumen mengandungi “information” dan “retrieval”

  • Dapatkan semua dokumen mengandungi “information” atau “retrieval” (atau kedua-duanya)

  • Dapatkan semua dokumen mengandungi “information” atau “retrieval”, tetapi bukan kedua-duanya.

  • Dapatkan semua dokumen mengandungi “information” dan “retrieval” atau tidak mengandungi kedua-dua “retrieval” dan “science”


Model boolean kekuatan

Model Boolean : Kekuatan

  • Sehingga sekarang merupakan model capaian yang popular kerana

    • Mudah untuk difahamai untuk kueri yang mudah

    • Kawalan yang baik bagi set jawapan dengan menggunakan ungkapan boolean yang kompleks.

  • Penjanaan yang efisyen

    • Selagimana pengenalpastian dokumen berasaskan kepada term dititikberatkan.

  • Pengguna dengan hanya sedikit latihan dengan senang dapat menformulasikan kueri boolean yang mudah

  • Model boolean boleh ditingkatkan bagi membolehkan penjanaan pangkatan


Model boolean masalah

Model Boolean : Masalah

  • Terlalu rigid : AND bermaksud SEMUA ; OR bermaksud SALAH SATU

  • Susah jika permintaan pengguna yang kompleks.

  • Susah untuk mengawal bilangan dokuman yang dicapai

    • Semua dokumen yang padan akan dipulangkan tanpa ada senarai keutamaan

  • Susah untuk pangkatkan output

    • Semua dokumen yang padan, memenuhi kueri pada aras yang sama

  • Susah untuk menjanakan “relevent feedback” secara automatik

    • Jika dokumen yang dikenalpasti oleh pengguna adalah releven, bagaimana untuk menjana term baru bagi sesuatu kueri? AND? OR?


Capaian extended boolean

Capaian “Extended Boolean”

  • membenarkan proses pangkatan dilakukan

Bagi dokumen yang mengandungi term t1 dan t2 dengan pemberat w1 dan w2 maka similarity coefficient dikira


Model capaian maklumat

Model Ruang Vektor

  • Setiap term dianggap sebagai term indeks dimana ianya tidak berkaitan diantara satu sama lain.

  • Setiap term indeks adalah mewakili term penting bagi sesuatu aplikasi.

architecture

bus

computer

database

….

network

Koleksi sains komputer

Term indeks dalam satu koleksi


Model vektor

Model Vektor

  • Dokumen : dokumen dengan set term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada dokumen

    dj = (W1,j , W2,j, …… , Wi,j)

  • Kueri : kueri adalah term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada kehendak pengguna

    q = (W1,j , W2,j, …… , Wi,j)


Model capaian maklumat

T1 T2 …. Tt

D1 w11 w21 … wt1

D2 w12 w22 … wt2

: : : :

: : : :

Dn w1n w2n … wtn

Model Ruang Vektor

  • Setiap term, I, di dalam suatu dokumen atau kueri, j, diberi nilai (real) pemberat wij.

  • Koleksi bagi n dokumen boleh diwakilkan dalam bentuk model ruang vektor dengan matrik term-dokumen

  • Kemasukkan matrik bergantung kepada pemberat term dalam suatu dokumen; kosong bermaksud term tidak significance dalam dokumen atau tidak ujud di dalam dokumen tersebut.


Model capaian maklumat

T3

5

D1 = 2T1+ 3T2 + 5T3

Q = 0T1 + 0T2 + 2T3

2

3

T1

D2 = 3T1 + 7T2 + T3

7

T2

Perwakilan Grafik

Example:

D1 = 2T1 + 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

  • Adakah D1 atau D2 lebih sama dgn Q?

  • Bagaimana untuk mengukur darjah kesamaan? Jarak ? Sudut?


Model ruang vektor

Model Ruang Vektor

Perkara yang penting di dalam permodelan ruang vektor ialah

  • menentukan pemberat bagi dokumen dan pemberat bagi kueri

  • Pengiraan persamaan antara dokumen dan kueri


Model ruang vektor penentuan pemberat

Model Ruang Vektor : Penentuan Pemberat

  • Penyelesaian mudah : kepentingan sesuatu term berkait dengan kekerapan keujudan term tersebut.

    • Jika term A dinyatakan lebih banyak/kerap dari term B, maka dokumen itu lebih menceritakan tentang A berbanding B.

  • katakan freqi,j adalah kekerapan keujudan term ki dalam suatu dokumen dj, maka

    • Wi,j = freqi,j

  • Masalah : penyelesaian mudah ini tidak normal jika perbandingan berdasarkan panjang suatu dokumen

    • Satu laman dokumen yang menyebut 10 kali mengenai A berbanding 100 laman dokumen yang menyebut 20 kali mengenai A

  • Penyelesaian :

    • Bahagi setiap bilangan kekerapan (freq) dengan panjang dokumen

    • Bahagi setiap bilangan kekerapan dengan bil. Kekerapan yang maksima bagi setiap item dalam dokumen


  • Model ruang vektor penentuan pemberat1

    Model Ruang Vektor : Penentuan Pemberat

    • Masalah : term yang ujud di dalam banyak dokumen tidak semestinya menggambarkan ianya berkaitan dengan dokumen tersebut

      • Term komputer di dalam perpustakaan kejuruteraan

    • Penyelesaian : pemberat menggabungkan dua nilai pengukuran

      • Pemberat bagi kekerapan term dalam sesbuah dokumen

      • Pemberat disongsangkan bagi memberi penumpuan kepada keujudan term di dalam keseluruhan koleksi dokumen yang ada. Ia menunjukkan term yang jarang muncul dalam keseluruhan dokumen adalah lebih bermakna

      • Digabungkan :


    Model capaian maklumat

    Model Ruang Vektor : Penentuan Pemberat

    Jika koleksi mengandungi 10000 dokumen dan term A ujud sebanyak 20 kali pada dokumen tertentu dan maksima suatu term yang ujud pada dokumen ialah 50. Term A ujud 2000 kali pada keseluruhan koleksi dokumen maka

    fi,j = freqi,j / max{ freqk,j} = 20/50 = 0.4

    idfi = log2(n/ni) = log2 (10000/2000) = log2(5) = 2.32

    wi,j = fi,j . idfi = 0.4 * 2.32 = 0.93


    Model capaian maklumat

    Model Ruang Vektor : Penentuan Pemberat

    Pemberat kueri dicadangkan seperti berikut

    • freqi,j merupakan kekerapan term ki dalam teks kueri q yang diminta

    • Kueri dianggap seperti dokumen lain di dalam koleksi.


    Model capaian maklumat

    Model Ruang Vektor : pengukuran kesamaan (similarity)

    • Pengukuran kesamaan merupa fungsi dijanakan bagi mendapatkan darjah kesamaan diantara sepasang vektor.

      • Memandangkan kueri dan dokuemn dalam bentuk vektor maka pengukuran kesamaan boleh mendapatkan kesamaan di antara dua dokumen, dua kueri atau satu dokumen dan satu kueri.

    • Terdapat beberapa kaedah digunakan didalam mendapatkan pengukuran kesamaan. Diantaranya :

      • Inner product

      • Cosine

      • Jaccard Coefficient.


    Model capaian maklumat

    Model Ruang Vektor : pengukuran kesamaan (similarity)Inner Product

    • Inner product : pengukuran kesamaan yang paling mudah

    • Dokumen :

    • Kueri :

    • Pengukuran yang digunakan :

    • Contoh

    • Dokumen dan kueri

      • d1 = (3, 2, 5, 4)

      • d2 = (6, 4, 10, 8)

      • q = (2, 0, 4, 3)

    Pengukuran kesamaan :

    Sim(q, d1) = 6+0+20+12 = 38

    Sim(q, d2) = 12+0+40+24=76


    Model capaian maklumat

    Model Ruang Vektor : pengukuran kesamaan (similarity)Inner Product

    management

    architecture

    text

    information

    computer

    retrieval

    database

    Binary:

    • D = 1, 1, 1, 0, 1, 1, 0

    • Q = 1, 0 , 1, 0, 0, 1, 1

      sim(D, Q) = 3

    • Size of vector = size of vocabulary = 7

    • 0 means corresponding term not found in document or query

    Weighted

    D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3

    Q = 0T1 + 0T2 + 2T3

    sim(D1, Q) = 2*0 + 3*0 + 5*2 = 10

    sim(D2, Q) = 3*0 + 7*0 + 1*2 = 2


    Model capaian maklumat

    Model Ruang Vektor : pengukuran kesamaan (similarity)Cosine

    • Cosine : pernormalan pengukuran kesamaan inner product

    • Dokumen :

    • Kueri :

    • Pengukuran cosine yang digunakan :


    Model capaian maklumat

    • Pengukuran cosine

    • Contoh :

    • Dokumen dan kueri

      • d1=(3, 2, 5, 4)

      • d2=(6, 4, 10, 8)

      • q = (2, 0, 4, 3)

    • Vektor

      • |d1| =7.35

      • |d2| =14.70

      • |q | = 5.38

    Model Ruang Vektor : pengukuran kesamaan (similarity)Cosine

    • Cosine mengukur berdasarkan sudut antara dua vektor

    • Semua nilai di antara 0 – 1

    • Pendekatan cosine ialah, 1, menunjukkan dua vektor tersebut mewakilkan konsep yang sama. 0, menunjukan keduanya tidak mewakili konsep yang sama

    • Kesamaan

      • sim(q,d1) = (6+0+20+12) / (7.35  5.38) = 0.96

      • sim(q,d2) = (12+0+40+24) / (14.70  5.38) = 0.96


    Model capaian maklumat

    • Pengukuran cosine

    • Contoh :

    • Dokumen dan kueri

      • d1=(6, 4, 0, 8)

      • d2=(0, 0, 5, 0)

      • q = (3, 2, 0, 4)

    • Vektor

      • |d1| =10.77

      • |d2| = 5.00

      • |q | = 5.385

    Model Ruang Vektor : pengukuran kesamaan (similarity)Cosine

    • Kesamaan

      • sim(q,d1) = (18+8+0+32) / (10.77  5.385) = 1.00

      • sim(q,d2) = (0+0+0+0) / (5.00  5.385) = 0


    Model capaian maklumat

    Model Ruang Vektor : pengukuran kesamaan (similarity)Jaccard Coefficient

    Jaccard Coefficient:

    D1 = 2T1 + 3T2 + 5T3 Sim(D1, Q) = 10 / (38+4-10) = 10/32 = 0.31

    D2 = 3T1 + 7T2 + T3 Sim(D2, Q) = 2 / (59+4-2) = 2/61 = 0.04

    Q = 0T1 + 0T2 + 2T3


  • Login