trzy metody automatycznego indeksowania dokument w
Download
Skip this Video
Download Presentation
TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW

Loading in 2 Seconds...

play fullscreen
1 / 43

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW - PowerPoint PPT Presentation


  • 92 Views
  • Uploaded on

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW. indeksowanie statystyczne indeksowanie probabilistyczne indeksowanie lingwistyczne. Indeksowanie statystyczne.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW' - tibor


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
trzy metody automatycznego indeksowania dokument w
TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW
  • indeksowanie statystyczne
  • indeksowanie probabilistyczne
  • indeksowanie lingwistyczne
indeksowanie statystyczne
Indeksowanie statystyczne

Metody wykorzystujące statystyczne właściwości wyrazów lub wyrażeń występujących w tekście dokumentu w aspekcie danego dokumentu lub całego dokumentu.

indeksowanie probabilistyczne
Indeksowanie probabilistyczne

Metody wykorzystujące rachunek prawdopodobieństwa w celu określenia prawdopodobieństwa wyszukania dokumentu relewantnego oraz wykorzystujące rozkłady częstości terminów w celu określenia tego prawdopodobieństwa.

indeksowanie lingwistyczne
Indeksowanie lingwistyczne

Metody wykorzystujące automatyczną analizę językową w celu wyróżnienia w tekście dokumentu wyrażeń informacyjnie ważnych, znaczących dla jego treści.

j zyki informacyjno wyszukiwawcze
Języki informacyjno-wyszukiwawcze

JI-W to specjalistyczny sztuczny język, przeznaczony do odtwarzania podstawowej treści dokumentu i (lub) pytania informacyjnego w celu wyszukania ze zbioru informacyjnego tylko tych dokumentów, które odpowiadają na pytanie.

(na podstawie słownika terminologicznego)

j zyki informacyjno wyszukiwawcze1
Języki informacyjno-wyszukiwawcze

JI to język sztuczny, którego wyspecjalizowaną funkcją jest opis dokumentów w celu późniejszego odszukania ich na żądanie użytkownika. JI wyraża treść i/lub charakterystyki formalne ... dokumentów. JI umożliwia odwzorowanie treści dokumentu przez tworzenie jednoznacznej zwięzłej jej reprezentacji (możliwie najbardziej odpowiedniej semantycznie w stosunku do pełnego dokumentu) oraz jednoznaczne i sformalizowane wyrażenie charakterystyk formalnych dokumentu przez podanie (wyliczanie) ich w wyborze i w postaci ustalonych regułami danego języka informacyjnego. (E.Ścibor)

klasyfikacja j zyk w informacyjno wyszukiwawczych
Klasyfikacja językówinformacyjno-wyszukiwawczych
  • Prekoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego na etapie budowanie tego języka.
  • Postkoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego podczas indeksowania lub wyszukiwania informacji, a nie podczas budowy tego języka.
slide8
1.Prekoordynacyjne języki inf.-wysz.1.1.Klasyfikacje wyliczające1.1.1.Klasyfikacje hierarchiczne1.1.2.Klasyfikacje alfabetyczno-przedmiotowe1.2.Klasyfikacje fasetowe

2.Postkoordynacyjne języki inf.-wysz.2.1.Języki deskryptorowe2.2.1.Język unitermów2.1.2.Język słów kluczowych2.1.3.Tezaurusy2.2.Kody semantyczne2.3.Syntole

klasyfikacje hierarchiczne 1
Klasyfikacje hierarchiczne (1)

Klasyfikacje hierarchiczne mają strukturę „drzewa wiedzy”, którego korzeń to całość określonej wiedzy (uniwersum), który następnie dzieli się na węższe, wzajemnie wykluczające się podklasy.

klasyfikacje hierarchiczne 2
Klasyfikacje hierarchiczne (2)

Klasyfikacja – to system klas.

Klasyfikowanie – to proces przyporządkowywania obiektów (dokumentów, informacji, faktów, przedmiotów itp.) do klas według najistotniejszych cech, posiadanych przez te obiekty i jednocześnie odróżniających je od innych.

Podstawa podziału – to cecha według której odbywa się podział.

klasyfikacje hierarchiczne 3
Klasyfikacje hierarchiczne (3)

Klasyfikacja powinna podlegać następującym regułom formalno-logicznym:

  • podziału klas powinno się dokonywać tylko według podstawy,
  • otrzymane w wyniku podziału podklasy powinny wykluczać się wzajemnie,
  • podział na podklasy powinien być równomierny,
  • podział na podklasy powinien być ciągły (bez przeskoków).
klasyfikacje hierarchiczne 4
Klasyfikacje hierarchiczne (4)

Podstawowe rodzaje relacji między członami klasyfikacji:

  • hierarchia (podrzędność) – relacja, w której jedna klasa stanowi podklasę innej, szerszej,
  • współzależność – wiąże klasy, które są podklasami jednej i tej samej szerszej klasy.
klasyfikacja ukd
Klasyfikacja UKD
  • 1876 r. - system klasyfikacji dziesiętnej zaproponowany przez M. Deweya,
  • 1905 r. – klasyfikacja UKD, zaproponowana przez Belgów: Paul Otlet i Henri la Fontaine,
  • obecnie rozwojem UKD zajmuje się międzynarodowa organizacja FID.
klasyfikacja ukd 2
Klasyfikacja UKD (2)

Klasyfikacja dziesiętna UKD polega na tym, że cała wiedza ludzka, potraktowana jako całość, podzielona została na 10 działów głównych pierwszego stopnia, oznaczonych symbolami jednocyfrowymi od 0 do 9. Każdy z tych działów głównych dzieli się następnie na 10 działów drugiego stopnia, oznaczonych symbolami dwucyfrowymi, z których każdy dzieli się na dalszych 10 działów itd..

klasyfikacja ukd 3
Klasyfikacja UKD (3)

Tablice główne UKD:

0 – zagadnienia dotyczące podstawy wiedzy i kultury

1 – systemy filozoficzne, etyka, logika, psychologia

2 – teologia

3 – nauki społeczne – socjologia, ekonomia, ekonomika, prawo, polityka, opieka społeczna, oświata, etnografia

4 – (wolny)

5 – nauki ścisłe i przyrodnicze – matematyka, astronomia, fizyka, chemia, geologia, biologia, botanika, zoologia

6 – technika

7 – sztuki piękne, architektura, fotografia, kinematografia, sport

8 – językoznawstwo, lingwistyka, filologia, literatura

9 – historia, geografia.

klasyfikacja ukd 4
Klasyfikacja UKD (4)

Oprócz tablic głównych utworzono tablice symboli pomocniczych:

  • tablice poddziałów wspólnych – (globalne) zawierające powtarzające się elementy
  • tablice poddziałów analitycznych (lokalne, w obrębie danego działu).
klasyfikacja ukd 5
Klasyfikacja UKD (5)

Tablice UKD:

  • tablice główne
  • tablice pomocnicze (wspólne i analityczne)
  • indeksy przedmiotowe.

Przykład kodu:

629.114.6BMW.004.5

instrukcja obsługi technicznej samochodu BMW.

klasyfikacje hierarchiczne
Klasyfikacje hierarchiczne

ZALETY:

  • niskie kwalifikacje przy indeksowaniu,
  • do kodowania stosuje się tylko cyfry i litery.

WADY:

  • brak indeksowania wieloaspektowego,
  • nie są dogodne do wyszukiwania informacji według wcześniej nie przewidzianego zestawienia cech,
  • mała głębokość podziału,
  • regularnie odbiegają od osiągniętego poziomu wiedzy.
klasyfikacje alfabetyczno przedmiotowe
Klasyfikacjealfabetyczno-przedmiotowe

Elementy strukturalne klasyfikacji alfabetyczno-przedmiotowej:

  • temat hasła przedmiotowego,
  • określnik hasła przedmiotowego,
  • zapis przedmiotowy (dodatkowe uściślenie hasła przedmiotowego).
klasyfikacje alfabetyczno przedmiotowe 2
Klasyfikacjealfabetyczno-przedmiotowe (2)

ZALETY:

  • alfabetyczny porządek jest ogólnie znany, dlatego też do jego stosowania nie są potrzebne żadne specjalne znajomości ani środki pomocnicze,
  • o wiele łatwiejsze jest wprowadzanie nowych terminów niż w klasyfikacjach hierarchicznych,

WADY:

  • nie jest możliwe wyszukiwanie informacji według dowolnych połączeń cech,
  • włączenie synonimów do przedmiotowego wykazu haseł wymaga zastosowania wielokrotnie krzyżujących się odsyłaczy, co znacznie komplikuje strukturę.
klasyfikacje fasetowe
Klasyfikacje fasetowe

1933 r. indyjski filozof i teoretyk klasyfikacji Shiyali Ramamrita Ranganathan (1892-1972) zaproponował klasyfikację dwukropkową (ang. Colon Classification).

Ranganathan wyróżnił 5 kategorii podstawowych:

  • Indywiduum (ang. Personality)
  • Materia (ang. Matter)
  • Energia (ang. Energy)
  • Przestrzeń (ang. Space)
  • Czas (ang. Time).
klasyfikacje fasetowe 2
Klasyfikacje fasetowe (2)

Faseta – dowolna z podstawowych kategorii przedmiotów lub ich nazw, stosowanych w danej dziedzinie.

Fokus – każdy termin fasety.

Formuła fasetowa – niezmienna kolejność (faset) w zakodowanym zapisie.

klasyfikacje fasetowe 3
Klasyfikacje fasetowe (3)

Przykład.

Dziedzina: FILMY

Fasety: GATUNEK, METRAŻ, KOLOR, FORMAT

Fokusy:

GATUNEK: fabularne, dokumentalne, kroniki

METRAŻ: pełnometrażowe, krótkometrażowe

KOOLOR: czano-biały, kolorowy, mieszany

FORMAT: zwykłe, panoramiczne.

G2,M2,K1,F2 – to film dokumentalny, krótkometrażowy, czarno-biały, panoramiczny.

klasyfikacje fasetowe 4
Klasyfikacje fasetowe (4)

ZALETY:

  • umożliwiają indeksowanie wieloaspektowe,
  • ułatwiają dogodne gromadzenie w jednym miejscu wszystkich aspektów jakiegoś tematu lub przedmiotu (w klasyfikacjach hierarchicznych te aspekty mogą być rozrzucone po różnych członach podziału, przy czy zwykle nie istnieją reguły odszukania tych członów),
  • dopuszczają zazwyczaj większą głębokość podziału pojęć niż klasyfikacje hierarchiczne,
  • Pozwalają łatwiej wprowadzać do swoich tablic nowe terminy (fokusy).
klasyfikacje fasetowe 5
Klasyfikacje fasetowe (5)

WADY:

  • duża pracochłonność w tworzeniu klasyfikacji,
  • trudności we wprowadzaniu do wąsko specjalistycznych klasyfikacji nowych terminów z dziedzin pokrewnych.
kody semantyczne
Kody semantyczne

Kodami semantycznymi nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne między jednostkami leksykalnymi, tzn. relacje zachodzące między słowami określonego języka, niezależnie od kontekstu, w którym słowa te występują, wyrażone są przez same struktury ich jednostek leksykalnych.

kody semantyczne 2
Kody semantyczne (2)
  • USA – kod semantyczny Perry-Kenta

J.W.Perry i A. Kent w latach 1954-1959

  • kod opracowano na Western Research University (WRU) w Cleveland w satnie Ohio w USA dla Amerykańskiego Stowarzyszenia Metalurgów (American Society for Metals – ASM)
  • kod ASM-WRU.
kody semantyczne 3
Kody semantyczne (3)
  • ZSRR 1960-1964 - język RX-kodów
  • Ukraina, Kijów
  • zastosowano w systemie BIT.
syntole
Syntole

Syntolami nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne wyrażone są odsyłaczami w słowniku, a także za pomocą tablic i/lub schematów graficznych.

syntole 2
Syntole (2)
  • SYNTagmatic Organization Language – język o syntagmatycznej organizacji,
  • 1660-1662 Maison des Sciences de l’Homme w Paryżu.

Język SYNTOL, podobnie jak kody semantyczne, nie znalazł szerszego, praktycznego zastosowania.

j zyki deskryptorowe
Języki deskryptorowe
  • Unitermy
  • Słowa kluczowe
  • Tezaurusy
zalety i wady
Zalety i Wady

Zalety:

  • możliwość prowadzenia efektywnego wyszukiwania informacji według dowolnego, wcześniej nie przewidzianego, zestawienia cech,
  • możliwość łatwego wprowadzania nowych terminów,
  • zazwyczaj stosunkowo niewielki objętościowo słownik podstawowy.
zalety i wady1
Zalety i Wady

Wady:

  • trudniejsze niż przy zastosowaniu klasyfikacji hierarchicznej i fasetowej wyszukiwanie informacji według pytań tematycznych (pytań dotyczących ogólnych zagadnień),
  • bardzo pracochłonne generowanie słów kluczowych,
  • trudne i pracochłonne budowanie tezaurusów.
unitermy a s owa kluczowe
Unitermy a słowa kluczowe

Unitermy to pojedyncze wyrazy języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.

Słowa kluczowe to wyrazy lub wyrażenia języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.

identyfikacja uniterm w w tek cie
Identyfikacja unitermów w tekście

PROBLEMY

  • kropki w skrótach
  • nawiasy () [] {}
  • apostrof ‘
  • cyfry samodzielne, cyfry z literami
  • przecinki i kropki między cyframi (np. w liczbach)
  • pojedyncze litery np.. Witamina C, symbole chemiczne, znaki walut, itp.
  • adresy internetowe
  • małe i duże litery,
  • znaki diakrytyczne.
stop lista
Stop lista
  • Stop lista to wykaz bardzo często używanych słów języka naturalnego, które jednak pełnią w tekście jedynie role pomocniczą.
  • 10 najczęściej używanych wyrazów w tekstach języka naturalnego to nawet 20-30 % tekstu
  • Przykłady z języka angielskiego:

and, an, by, from, of, or, the, with

wska niki wi zi
Wskaźniki więzi

Wskaźniki więzi to symbole o takiej samej postaci (cyfry lub litery) przypisane do dwóch lub więcej terminów w charakterystyce wyszukiwawczej dokumentu w celu wykazania zachodzącej między nimi relacji syntagmatycznej i wyeliminowania szumu informacyjnego spowodowanego fałszywym kojarzeniem wyrazów.

wska niki roli
Wskaźniki roli

Wskaźnik roli to symbol zaczerpnięty z ustalonego wykazu symboli, dołączony do elementu języka informacyjno-wyszukiwawczego, w celu wskazania roli pojęcia (np.. surowiec, część itp.), reprezentowanego przez ten element w tekście dokumentu.

przyrost liczby uniterm w
Przyrost liczby unitermów

Przyrost liczby unitermów w zależności od liczby zaindeksowanych dokumentów ma charakter asymptotyczny. Przebieg funkcji przyrostu unitermów opisujemy następującym wzorem:

Y = A (1 – e-kx)

gdzie A – granica, do której dąży ogólna liczba unitermów w słownikach (zbiorach indeksowych),

k – stała przyrostu,

x – liczba zaindeksowanych dokumentów.

Wielkość A zależy od zakresu tematycznego bazy.

Współczynnik k zależy od szerokości indeksowania.

tezaurus
Tezaurus

Tezaurus to zbiór semantycznie i hierarchicznie powiązanych terminów (deskryptorów i askryptorów) z określonej dziedziny wiedzy, stosowany do przekładu wyrazów języka naturalnego na terminy sformalizowanego języka informacyjno-wyszukiwawczego.

W tezaurusie wyróżniamy dwa typy terminów:

  • deskryptory – terminy zalecane do indeksowania
  • askryptory – terminy zakazane, którymi są synonimy, terminy bliskoznaczne, terminy zbyt ogólne i zbyt szczegółowe oraz niektóre antonimy (askryptory wprowadza się do tezaurusa w celu ułatwienia odszukania reprezentujących je deskryptorów).
tezaurus 2
Tezaurus (2)

Podstawowe relacje, uwzględniane w tezaurusie, to:

  • relacja synonimii – relacja umożliwiająca przyporządkowania każdemu terminowi odpowiadającego mu deskryptora,
  • relacja hierarchii – relacja wskazująca na terminy węższe lub szersze (ogólne lub bardziej szczegółowe w stosunku do innych).

Ŧ = < T , S, B >

tezaurus 3
Tezaurus (3)

Metody tworzenia tezaurusa:

  • metoda dedukcyjna
  • metoda indukcyjna.
tezaurus 4
Tezaurus (4)

Części tezaurusa:

  • wprowadzenie,
  • część alfabetyczno-hierarchiczna,
  • część systematyczna,
  • indeks hierarchiczny,
  • wykazy indeksów.
ad