1 / 52

İrem Soydal ~ Yurdagül Ünal soydal@hacettepe.tr yurdagul@hacettepe.tr

BBY 156 Bilgi Erişim 2012-2013 http://bby156. blogspot .com  Belge işleme  Bilgi erişim modelleri. İrem Soydal ~ Yurdagül Ünal soydal@hacettepe.edu.tr yurdagul@hacettepe.edu.tr. Temel işlev.

ivo
Download Presentation

İrem Soydal ~ Yurdagül Ünal soydal@hacettepe.tr yurdagul@hacettepe.tr

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BBY 156 Bilgi Erişim2012-2013http://bby156.blogspot.comBelge işleme  Bilgi erişim modelleri İrem Soydal ~ Yurdagül Ünal soydal@hacettepe.edu.tryurdagul@hacettepe.edu.tr

  2. Temel işlev • Bir bilgi erişim sisteminin temel işlevi, kullanıcıların bilgi ihtiyaçlarını karşılaması muhtemel, derlemdeki ilgili belgelerin tümüne erişmek, ilgili olmayanları da ayıklamaktır. • İlgili: “Relevant” • İlgililik: “Relevancy”

  3. İdeal Bilgi Erişim Sistemi • İlgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı ! • Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak • İdeal bir bilgi erişim sistemi yaratmak neredeyse imkansız • Milyonlarca kayıt / belge • “ilgililik” kavramının öznelliği

  4. Koşullar • Bir bilgi erişim sisteminde ihtiyaç duyulan belgelere erişmek için sistemin iki koşulu yerine getirmesi gerekir: • 1) Derleme eklenen her belgenin temel özellikleri geleneksel veya otomatik olarak gerçekleştirilen dizinleme işlemleri sırasında belirlenmeli ve her belge için ilgili dizin terimleri oluşturulmalıdır. • Bir belge için oluşturulan söz konusu dizin terimleri bilgi erişim sırasında belgenin tamamını temsil etmek üzere kullanılır. • 2) Kullanıcılar belgelere verilen bu dizin terimlerini doğru olarak tahmin edip sorgu cümlelerini ona göre oluşturmalıdırlar. • Bir başka deyişle, kullanıcının bilgi ihtiyacını ifade etmek için kullandığı terimlerle belgeyi temsil eden dizin terimleri birbiriyle karşılaştırılır ve çakışan belgelere erişilir.

  5. Temel bileşenler • Bir bilgi erişim sistemi: • (1) bir belge derlemi ya da bu belgeleri temsil eden dizin terimlerini içeren kayıtlar, • (2) kullanıcıların sorgu cümleleri, ve • (3) kullanıcıların sorgu cümlelerinde yer alan terimlerle derlemdeki belgelere verilen terimleri karşılaştırarak ilgili belgeleri belirlemek için kullanılan bir erişim kuralından oluşur.

  6. Belgeler .. • Tipik bir bilgi erişim sisteminde belgeler “terim”lerle gösterilir. • Bir derlemden “terim” elde etmek için genelde şu aşamalar gerçekleştirilir: • Harf olmayan karakterler boşluklarla yer değiştirilir • Tek harfli sözcükler silinir • Bütün karakterler küçük harfli yapılır • “Durma listesi”nde (stop words/list) geçen sözcükler silinir • Sözcükler gövdelenir (stemming) • Tek karakterli gövdeler atılır Kaynak: Tonta, Bitirim & Sever (2002), s.16

  7. .. Belgeler .. • Son adımdan sonra elde edilen listedeki yüksek sıklıklı sözcükler terim sözlüğünden çıkarılır ve böylece derleme duyarlı ikinci bir durma listesi oluşturulur. • Bu isteğe bağlı gerçekleştirilen bir adımdır. • Alternatif olarak yüksek sıklıklı sözcükler orta sıklıklı sözcüklerle birleştirilerek “tamlama” (phrase) oluştururlar. • Tamlamalar, yüksek ve orta sıklıklı sözcükler ayrı ayrı terim sözlüğüne otomatik olarak eklenir. • Tüm bu işlemler sırasında eşanlamlı sözcükler de terim listesi içinde tanımlanır. Kaynak: Tonta, Bitirim & Sever (2002), s.16

  8. .. Belgeler (belge işleme adımları/ documentprocessingsteps) Kaynak: Hearst, M & Larson, R. (2001), Lecture-4_202

  9. .. Belgeler (durma listesi/stop words) Kaynak: Hearst, M & Larson, R. (2001),

  10. .. Belgeler (gövdeleme/stemming ve morfolojik analiz) • Hedef: benzer sözcükleri “normalize” etmek • Morphology (sözcüklerin “biçim”i) • Çekim ekleri (inflectional morphology) • Çekim ekleri atılırken sözcüklerin dilbilgisel (grammatical) sınıfı asla bozulmaz • dog, dogs • ben, benim, bende, benden, .. • Yapım ekleri (derivational morphology) • Bir sözcükten başka bir sözcük türetme • Genelde dilbilgisel sınıfı değişir • build, building; health, healthy; kütüphane, kütüphaneci, kütüphanecilik • Morfolojik analiz ve gövdelemeyi otomatik olarak gerçekleştiren sağlam yazılımlar var. • Özellikle Türkçe gibi sondan eklemeli dillerde gövdeleme önemli ve otomatik gövdeleme yazılımlarının geliştirilmesine ihtiyaç var. Kaynak: Hearst, M & Larson, R. (2001), Lecture-4_202

  11. .. Belgeler (İngilizce için otomatik gövdeleme hatalarına örnek) Kaynak: Hearst, M & Larson, R. (2001), Lecture-4_202

  12. .. Belgeler (terimler) • Bütün bu aşamalardan geçip otomatik olarak oluşturulmuş sözcüklere “terim” denir. • Terimler hem belgeleri göstermede (belge terimleri) hem de sorguları ifade etmede (sorgu terimleri) kullanılır.

  13. Belge erişim sisteminin mantıksal düzenlemesi

  14. Kümeleme yöntemi • Tüm ilgili belgelere ulaşmak için sorgu cümlesinin sadece benzer kümelerle karşılaştırılması. • Daha az işlem daha hızlı sonuç.. • Küme sayısı – kümeleme formülü • Kümeleme nesneleri: • Konu başlıkları, • Kitap adları, • Tam metin • … vb.

  15. Erişim kuralı • Bir bilgi erişim sisteminde temel nokta: • Kullanıcının girdiği sorgulama terimlerinin, erişim için sistem tarafından yorumlanması. • Sorgu cümlelerindeki terimlerle belgelerin dizin kayıtlarındaki terimler karşılaştırılır. • Arama sonucunun kalitesi büyük ölçüde çakışma işleminde kullanılan erişim kurallarına bağlıdır. • Hangi kayıtlara erişilip/erişilmeyeceğini erişim kuralı belirler.

  16. Erişim kuralları (modeller) • Sorgu cümlesindeki terimlerle dizin terimleri arasında kesin çakışma (exact match) gerektiren erişim kuralları ve boole erişim kuralları • Olasılık kuramına dayalı erişim kuralları • Vektör uzayı modeli (Boole, 1990).

  17. Kesin çakışma/Boole modeli • Sorgu cümlesindeki terimler ve dizin terimleri ikilidir. • Bir terim sorgu cümlesinde ya da belgenin dizin kaydında ya vardır ya yoktur. • Erişim için her terim eşit derecede önem taşır. • Birden çok terimden oluşan sorgu cümleleri için eşik değerleri oluşturulabilir. • Sorgu cümlesindeki terimler kavramsal dizinlerden alınan ilgili terimlerle genişletilebilir. • Erişilen kayıtlar kabaca erişildi erişilmedi şeklinde sıralanabilir. Ya da erişilen kayıtlar sorgu cümlesinde ve dizin kaydında mevcut çakışan terim sayısına göre sıralanabilir.

  18. Kesin çakışma/Boole modeli • Boole modelinde erişim fonksiyonu ikili mantıkla çalıştığı için erişim çıktısındaki belgelerde sıralama yoktur (Salton, 1989). • Erişim çıktısının en başında yer alan belgeyle en sonunda yer alan belge aynı erişim değerine sahiptir. (Fakat ufak bir trük ile Boole mantığı ile de sıralama yapmak mümkündür.) • Çok fazla da sonuç gelebilir çok az da.

  19. Connectors - AND • AND is the default connector. When you enter 2 or more search terms, AND is automatically inserted between any spaces or hyphens in the terms. • heart attack or heart-attack would both be searched as heart AND attack • Use AND when you want all of the terms in your search to appear in returned documents and when terms may be far apart from each other.

  20. Connectors- OR • Use OR when at least one of your search terms must appear in returned documents. You can use OR to search for synonyms, alternate spellings, or abbreviations. • heart OR attack

  21. Connectors- AND NOT • Use AND NOT to exclude specific terms from returned documents. • Do not use AND NOT at the beginning of a search. • ganglia OR tumor AND NOT malignant finds documents that contained the terms "ganglia" or "tumor", but not the term "malignant".

  22. Order of precedence  1- OR2- AND3- AND NOT KEY(mouse AND NOT cat OR dog) -- KEY((mouse) AND NOT (cat OR dog)) KEY(cat AND dog AND NOT rodent OR mouse) – KEY((cat AND dog) AND NOT (rodent OR mouse)) KEY(mouse OR rat AND rodent) KEY(rodent AND rat OR mouse) KEY(rat OR mouse AND rodent) = KEY((mouse OR rat) AND rodent)

  23. And Not AND NOT can give unexpected results when you have multiple operators. Put it at the end of your searches. For example, the following search returns a large number of results: • KEY(cold) AND NOT KEY(influenza) AND KEY(virus) To exclude influenza from your search and make it more targeted, use the following instead: • KEY(cold) AND KEY(virus) AND NOT KEY(influenza)

  24. W/n (W:within, n:maximum number of words between the terms • Use W/n to specify how far apart terms may appear in documents. • W/n does not specify the word order. Either word may appear first. • Example  pain W/15 morphine would find documents that had the terms "pain" and "morphine" within 15 words of each other. • To find terms in the same phrase, use W/3, W/4, or W/5 • To find terms in the same sentence, use W/15 • To find terms in the same paragraph, use W/50

  25. Pre/n • Use PRE/n to find documents in which the first term precedes the second term within a specified number (n) of words. • pain PRE/3 morphinewould find documents in which pain precedes morphine by three or fewer words.

  26. Boolean Queries • Cat • Cat OR Dog • Cat AND Dog • (Cat ANDDog) • (Cat AND Dog) OR Collar • (Cat AND Dog) OR (Collar AND Leash) • (Cat OR Dog) AND (Collar OR Leash) Information Organization and Retrieval

  27. Boolean Queries (Cat OR Dog) AND (Collar OR Leash) Information Organization and Retrieval

  28. Boolean Queries (Cat OR Dog) AND (Collar OR Leash) Information Organization and Retrieval

  29. Boolean Logic t1 t2 D9 D2 D1 m5 m3 m6 m1= t1t2t3 D11 D4 m2= t1 t2t3 D5 m3 = t1 t2t3 D3 m1 D6 m4 = t1t2t3 m2 m4 D10 m5 = t1t2t3 m6 = t1t2t3 m7 m8 m7 = t1t2t3 D8 D7 m8= t1t2t3 t3 Information Organization and Retrieval

  30. Boolean Searching Formal Query: cracksANDbeams ANDWidth_measurement ANDPrestressed_concrete “Measurement of the width of cracks in prestressed concrete beams” Cracks Width measurement Beams Relaxed Query: (C AND B AND P) OR (C AND B AND W) OR (C AND W AND P) OR (B AND W AND P) Prestressed concrete Information Organization and Retrieval

  31. Index Query Parse Rank Pre-process Information need Collections text input

  32. Index Query Parse Rank Re-Rank Pre-process Information need Collections text input Reformulated Query

  33. And

  34. Or

  35. Order of precedence  1- OR2- AND3- AND NOT KEY(mouse AND NOT cat OR dog) -- KEY((mouse) AND NOT (cat OR dog)) KEY(cat AND dog AND NOT rodent OR mouse) – KEY((cat AND dog) AND NOT (rodent OR mouse)) KEY(mouse OR rat AND rodent) KEY(rodent AND rat OR mouse) KEY(rat OR mouse AND rodent) = KEY((mouse OR rat) AND rodent)

  36. And Not AND NOT can give unexpected results when you have multiple operators. Put it at the end of your searches. For example, the following search returns a large number of results: • KEY(cold) AND NOT KEY(influenza) AND KEY(virus) To exclude influenza from your search and make it more targeted, use the following instead: • KEY(cold) AND KEY(virus) AND NOT KEY(influenza)

  37. W/n (W:within, n:maximum number of words between the terms • Use W/n to specify how far apart terms may appear in documents. • W/n does not specify the word order. Either word may appear first. • Example  pain W/15 morphine would find documents that had the terms "pain" and "morphine" within 15 words of each other. • To find terms in the same phrase, use W/3, W/4, or W/5 • To find terms in the same sentence, use W/15 • To find terms in the same paragraph, use W/50

  38. Wildcardcharacters • Asterisk (*): Replace zero or more characters in a search word. • h*r*t finds "heart", "harvest", "homograft", "hypervalent“ …. Question mark (?): Replace exactly one character in a search word. Use one question mark for each character. gro?t finds "grout" or "groat", but not "groundnut" or "grommet“ transplant?? finds "transplanted" and "transplanter

  39. H*r*t

  40. Roo?

  41. Wildcardcharacters • Use a question mark to hold a space for certain variations in spelling at any point in a word. • bernst??n finds both the "ei" and the "ie" spelling of the name. • It is better to use the asterisk to account for spelling variations. • behavi?r does not return results that include "behaviour"; however, searching for behavi*r returns results that include both "behavior" and "behaviour".

  42. Heartattack / “heartattack”

  43. Pre/n • Use PRE/n to find documents in which the first term precedes the second term within a specified number (n) of words. • pain PRE/3 morphinewould find documents in which pain precedes morphine by three or fewer words.

More Related