slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Materi 4 PowerPoint Presentation
Download Presentation
Materi 4

Loading in 2 Seconds...

play fullscreen
1 / 14

Materi 4 - PowerPoint PPT Presentation


  • 111 Views
  • Uploaded on

Materi 4. Information Retrieval. Term Weighting. Overview. Dalam korpus yang besar , sebuah boolean query mampu mengembalikan hasil yang besar pula. Andaikan hasil boolean retrieval mengembalikan 10.000 dokumen , manakah yang benar-benar cocok untuk kita ?

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Materi 4' - hoai


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Materi 4

Information Retrieval

Term Weighting

overview
Overview
  • Dalamkorpus yang besar, sebuahboolean query mampumengembalikanhasil yang besar pula.
  • Andaikanhasilboolean retrieval mengembalikan 10.000 dokumen, manakah yang benar-benarcocokuntukkita?
  • Bagaimana pula dengan user yang kurangmemilikipengetahuan yang bagusdalamboolean query?
overview1
Overview
  • Permasalahan:

Kita butuhmengurutkandokumenhasilretrievaldisesuaikandenganquery yang kitamasukkan.

  • Pemecahan:

Pemberian score/nilaiuntuksetiapdokumendalamkorpusterhadapquerykita. (untukdirangkingkan)

scoring
Scoring
  • Yang sudahkitapelajaritentang scoring/nilaiadalahscore 1 untukdokumen yang relevandengan query danscore 0 untukdokumen yang tidakrelevan.
  • Kita akanmasukketahapberikutnya:
    • dokumen yang memiliki token query lebihbanyakdidalamnya, akanmemiliki score yang lebihtinggi.
    • query berupafree text (tanpa operator)
overlap measure 1
Overlap Measure [1]
  • Ideperangkingan yang sederhanaadalah overlap measure (Manning, 2008)
  • Sebagaicontoh, kitalihatkasusberikut.
overlap measure 2
Overlap Measure [2]
  • Misalkancontoh query-nyaadalah:

“Brutus Mercy Antony”

  • Makadokumen “Antony and Cleopatra” memiliki score 3 (Karenaketiga token dalam query dimilikisemuaolehdokumentersebut).
  • Dokumen “Julius Caesar” dan “Macbeth” memiliki score 2.
  • Nah, denganbegitu, dokumen “Antony and Cleopatra” menempatirangkingpertama.
overlap measure 3
Overlap Measure [3]
  • Tapi, apakahmasihditemuikelemahandaripenghitungan overlap measure?
  • Bagaimanakalau query hanyasatukata/token saja?
  • Overlap measure tidak:
    • Mempertimbangkanjumlahsuatu token dalamsuatudokumen.
    • Mempertimbangkanscarcitydaritiap token
    • Tidakmemperhitungkanjumlahkorpusdanjumlah token dalamquery.
overlap measure 4
Overlap Measure [4]
  • Ideselanjutnyaadalahmenemukanmetode scoring yang lebihbaik.
  • Scoring jugatetapdapatdilakukanmeskihanyaadasatu token dalam query.
  • Dokumenakansemakinrelevanjikamemuat token yang semakinbanyak.
  • Inisemuamenujukeideberikutnya term weighting.
term frequency
Term Frequency
  • Untukbisamendapat score tadi, pertama-tama kitaperlumemberikanbobottiap token dalamtiapdokumen.

Ex:

  • Bobot token ditentukandarijumlahkemunculan token tersebutdidalamdokumen. ( term frequency – tf)
  • term frequency dinotasikandengantf(t,d), dimanat  token, dand  dokumen
document frequency
Document Frequency

DOCUMENT FREQUENCY (df) , defined to be the number of documents in the collection that contain a term t.

components
Components
  • N  jmldokumen
  • tf(t,d)
  • df
  • idf inverse df

+ 1

tf idf weighting
tf-idf weighting

df

t = jumlah token padadokumeni

i = dokumenke-…

j & k = token ke-…

referensi
Referensi
  • http://come2dz.wordpress.com/