Trzy metody automatycznego indeksowania dokument w
Download
1 / 43

- PowerPoint PPT Presentation


 • 85 Views
 • Uploaded on

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW. indeksowanie statystyczne indeksowanie probabilistyczne indeksowanie lingwistyczne. Indeksowanie statystyczne.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - ori-rowland


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Trzy metody automatycznego indeksowania dokument w
TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW

 • indeksowanie statystyczne

 • indeksowanie probabilistyczne

 • indeksowanie lingwistyczne


Indeksowanie statystyczne
Indeksowanie statystyczne

Metody wykorzystujące statystyczne właściwości wyrazów lub wyrażeń występujących w tekście dokumentu w aspekcie danego dokumentu lub całego dokumentu.


Indeksowanie probabilistyczne
Indeksowanie probabilistyczne

Metody wykorzystujące rachunek prawdopodobieństwa w celu określenia prawdopodobieństwa wyszukania dokumentu relewantnego oraz wykorzystujące rozkłady częstości terminów w celu określenia tego prawdopodobieństwa.


Indeksowanie lingwistyczne
Indeksowanie lingwistyczne

Metody wykorzystujące automatyczną analizę językową w celu wyróżnienia w tekście dokumentu wyrażeń informacyjnie ważnych, znaczących dla jego treści.


J zyki informacyjno wyszukiwawcze
Języki informacyjno-wyszukiwawcze

JI-W to specjalistyczny sztuczny język, przeznaczony do odtwarzania podstawowej treści dokumentu i (lub) pytania informacyjnego w celu wyszukania ze zbioru informacyjnego tylko tych dokumentów, które odpowiadają na pytanie.

(na podstawie słownika terminologicznego)


J zyki informacyjno wyszukiwawcze1
Języki informacyjno-wyszukiwawcze

JI to język sztuczny, którego wyspecjalizowaną funkcją jest opis dokumentów w celu późniejszego odszukania ich na żądanie użytkownika. JI wyraża treść i/lub charakterystyki formalne ... dokumentów. JI umożliwia odwzorowanie treści dokumentu przez tworzenie jednoznacznej zwięzłej jej reprezentacji (możliwie najbardziej odpowiedniej semantycznie w stosunku do pełnego dokumentu) oraz jednoznaczne i sformalizowane wyrażenie charakterystyk formalnych dokumentu przez podanie (wyliczanie) ich w wyborze i w postaci ustalonych regułami danego języka informacyjnego. (E.Ścibor)


Klasyfikacja j zyk w informacyjno wyszukiwawczych
Klasyfikacja językówinformacyjno-wyszukiwawczych

 • Prekoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego na etapie budowanie tego języka.

 • Postkoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego podczas indeksowania lub wyszukiwania informacji, a nie podczas budowy tego języka.


Trzy metody automatycznego indeksowania dokument w

1.Prekoordynacyjne języki inf.-wysz.1.1.Klasyfikacje wyliczające1.1.1.Klasyfikacje hierarchiczne1.1.2.Klasyfikacje alfabetyczno-przedmiotowe1.2.Klasyfikacje fasetowe

2.Postkoordynacyjne języki inf.-wysz.2.1.Języki deskryptorowe2.2.1.Język unitermów2.1.2.Język słów kluczowych2.1.3.Tezaurusy2.2.Kody semantyczne2.3.Syntole


Klasyfikacje hierarchiczne 1
Klasyfikacje hierarchiczne (1)

Klasyfikacje hierarchiczne mają strukturę „drzewa wiedzy”, którego korzeń to całość określonej wiedzy (uniwersum), który następnie dzieli się na węższe, wzajemnie wykluczające się podklasy.


Klasyfikacje hierarchiczne 2
Klasyfikacje hierarchiczne (2)

Klasyfikacja – to system klas.

Klasyfikowanie – to proces przyporządkowywania obiektów (dokumentów, informacji, faktów, przedmiotów itp.) do klas według najistotniejszych cech, posiadanych przez te obiekty i jednocześnie odróżniających je od innych.

Podstawa podziału – to cecha według której odbywa się podział.


Klasyfikacje hierarchiczne 3
Klasyfikacje hierarchiczne (3)

Klasyfikacja powinna podlegać następującym regułom formalno-logicznym:

 • podziału klas powinno się dokonywać tylko według podstawy,

 • otrzymane w wyniku podziału podklasy powinny wykluczać się wzajemnie,

 • podział na podklasy powinien być równomierny,

 • podział na podklasy powinien być ciągły (bez przeskoków).


Klasyfikacje hierarchiczne 4
Klasyfikacje hierarchiczne (4)

Podstawowe rodzaje relacji między członami klasyfikacji:

 • hierarchia (podrzędność) – relacja, w której jedna klasa stanowi podklasę innej, szerszej,

 • współzależność – wiąże klasy, które są podklasami jednej i tej samej szerszej klasy.


Klasyfikacja ukd
Klasyfikacja UKD

 • 1876 r. - system klasyfikacji dziesiętnej zaproponowany przez M. Deweya,

 • 1905 r. – klasyfikacja UKD, zaproponowana przez Belgów: Paul Otlet i Henri la Fontaine,

 • obecnie rozwojem UKD zajmuje się międzynarodowa organizacja FID.


Klasyfikacja ukd 2
Klasyfikacja UKD (2)

Klasyfikacja dziesiętna UKD polega na tym, że cała wiedza ludzka, potraktowana jako całość, podzielona została na 10 działów głównych pierwszego stopnia, oznaczonych symbolami jednocyfrowymi od 0 do 9. Każdy z tych działów głównych dzieli się następnie na 10 działów drugiego stopnia, oznaczonych symbolami dwucyfrowymi, z których każdy dzieli się na dalszych 10 działów itd..


Klasyfikacja ukd 3
Klasyfikacja UKD (3)

Tablice główne UKD:

0 – zagadnienia dotyczące podstawy wiedzy i kultury

1 – systemy filozoficzne, etyka, logika, psychologia

2 – teologia

3 – nauki społeczne – socjologia, ekonomia, ekonomika, prawo, polityka, opieka społeczna, oświata, etnografia

4 – (wolny)

5 – nauki ścisłe i przyrodnicze – matematyka, astronomia, fizyka, chemia, geologia, biologia, botanika, zoologia

6 – technika

7 – sztuki piękne, architektura, fotografia, kinematografia, sport

8 – językoznawstwo, lingwistyka, filologia, literatura

9 – historia, geografia.


Klasyfikacja ukd 4
Klasyfikacja UKD (4)

Oprócz tablic głównych utworzono tablice symboli pomocniczych:

 • tablice poddziałów wspólnych – (globalne) zawierające powtarzające się elementy

 • tablice poddziałów analitycznych (lokalne, w obrębie danego działu).


Klasyfikacja ukd 5
Klasyfikacja UKD (5)

Tablice UKD:

 • tablice główne

 • tablice pomocnicze (wspólne i analityczne)

 • indeksy przedmiotowe.

  Przykład kodu:

  629.114.6BMW.004.5

  instrukcja obsługi technicznej samochodu BMW.


Klasyfikacje hierarchiczne
Klasyfikacje hierarchiczne

ZALETY:

 • niskie kwalifikacje przy indeksowaniu,

 • do kodowania stosuje się tylko cyfry i litery.

  WADY:

 • brak indeksowania wieloaspektowego,

 • nie są dogodne do wyszukiwania informacji według wcześniej nie przewidzianego zestawienia cech,

 • mała głębokość podziału,

 • regularnie odbiegają od osiągniętego poziomu wiedzy.


Klasyfikacje alfabetyczno przedmiotowe
Klasyfikacjealfabetyczno-przedmiotowe

Elementy strukturalne klasyfikacji alfabetyczno-przedmiotowej:

 • temat hasła przedmiotowego,

 • określnik hasła przedmiotowego,

 • zapis przedmiotowy (dodatkowe uściślenie hasła przedmiotowego).


Klasyfikacje alfabetyczno przedmiotowe 2
Klasyfikacjealfabetyczno-przedmiotowe (2)

ZALETY:

 • alfabetyczny porządek jest ogólnie znany, dlatego też do jego stosowania nie są potrzebne żadne specjalne znajomości ani środki pomocnicze,

 • o wiele łatwiejsze jest wprowadzanie nowych terminów niż w klasyfikacjach hierarchicznych,

  WADY:

 • nie jest możliwe wyszukiwanie informacji według dowolnych połączeń cech,

 • włączenie synonimów do przedmiotowego wykazu haseł wymaga zastosowania wielokrotnie krzyżujących się odsyłaczy, co znacznie komplikuje strukturę.


Klasyfikacje fasetowe
Klasyfikacje fasetowe

1933 r. indyjski filozof i teoretyk klasyfikacji Shiyali Ramamrita Ranganathan (1892-1972) zaproponował klasyfikację dwukropkową (ang. Colon Classification).

Ranganathan wyróżnił 5 kategorii podstawowych:

 • Indywiduum (ang. Personality)

 • Materia (ang. Matter)

 • Energia (ang. Energy)

 • Przestrzeń (ang. Space)

 • Czas (ang. Time).


Klasyfikacje fasetowe 2
Klasyfikacje fasetowe (2)

Faseta – dowolna z podstawowych kategorii przedmiotów lub ich nazw, stosowanych w danej dziedzinie.

Fokus – każdy termin fasety.

Formuła fasetowa – niezmienna kolejność (faset) w zakodowanym zapisie.


Klasyfikacje fasetowe 3
Klasyfikacje fasetowe (3)

Przykład.

Dziedzina: FILMY

Fasety: GATUNEK, METRAŻ, KOLOR, FORMAT

Fokusy:

GATUNEK: fabularne, dokumentalne, kroniki

METRAŻ: pełnometrażowe, krótkometrażowe

KOOLOR: czano-biały, kolorowy, mieszany

FORMAT: zwykłe, panoramiczne.

G2,M2,K1,F2 – to film dokumentalny, krótkometrażowy, czarno-biały, panoramiczny.


Klasyfikacje fasetowe 4
Klasyfikacje fasetowe (4)

ZALETY:

 • umożliwiają indeksowanie wieloaspektowe,

 • ułatwiają dogodne gromadzenie w jednym miejscu wszystkich aspektów jakiegoś tematu lub przedmiotu (w klasyfikacjach hierarchicznych te aspekty mogą być rozrzucone po różnych członach podziału, przy czy zwykle nie istnieją reguły odszukania tych członów),

 • dopuszczają zazwyczaj większą głębokość podziału pojęć niż klasyfikacje hierarchiczne,

 • Pozwalają łatwiej wprowadzać do swoich tablic nowe terminy (fokusy).


Klasyfikacje fasetowe 5
Klasyfikacje fasetowe (5)

WADY:

 • duża pracochłonność w tworzeniu klasyfikacji,

 • trudności we wprowadzaniu do wąsko specjalistycznych klasyfikacji nowych terminów z dziedzin pokrewnych.


Kody semantyczne
Kody semantyczne

Kodami semantycznymi nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne między jednostkami leksykalnymi, tzn. relacje zachodzące między słowami określonego języka, niezależnie od kontekstu, w którym słowa te występują, wyrażone są przez same struktury ich jednostek leksykalnych.


Kody semantyczne 2
Kody semantyczne (2)

 • USA – kod semantyczny Perry-Kenta

  J.W.Perry i A. Kent w latach 1954-1959

 • kod opracowano na Western Research University (WRU) w Cleveland w satnie Ohio w USA dla Amerykańskiego Stowarzyszenia Metalurgów (American Society for Metals – ASM)

 • kod ASM-WRU.


Kody semantyczne 3
Kody semantyczne (3)

 • ZSRR 1960-1964 - język RX-kodów

 • Ukraina, Kijów

 • zastosowano w systemie BIT.


Syntole
Syntole

Syntolami nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne wyrażone są odsyłaczami w słowniku, a także za pomocą tablic i/lub schematów graficznych.


Syntole 2
Syntole (2)

 • SYNTagmatic Organization Language – język o syntagmatycznej organizacji,

 • 1660-1662 Maison des Sciences de l’Homme w Paryżu.

  Język SYNTOL, podobnie jak kody semantyczne, nie znalazł szerszego, praktycznego zastosowania.


J zyki deskryptorowe
Języki deskryptorowe

 • Unitermy

 • Słowa kluczowe

 • Tezaurusy


Zalety i wady
Zalety i Wady

Zalety:

 • możliwość prowadzenia efektywnego wyszukiwania informacji według dowolnego, wcześniej nie przewidzianego, zestawienia cech,

 • możliwość łatwego wprowadzania nowych terminów,

 • zazwyczaj stosunkowo niewielki objętościowo słownik podstawowy.


Zalety i wady1
Zalety i Wady

Wady:

 • trudniejsze niż przy zastosowaniu klasyfikacji hierarchicznej i fasetowej wyszukiwanie informacji według pytań tematycznych (pytań dotyczących ogólnych zagadnień),

 • bardzo pracochłonne generowanie słów kluczowych,

 • trudne i pracochłonne budowanie tezaurusów.


Unitermy a s owa kluczowe
Unitermy a słowa kluczowe

Unitermy to pojedyncze wyrazy języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.

Słowa kluczowe to wyrazy lub wyrażenia języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.


Identyfikacja uniterm w w tek cie
Identyfikacja unitermów w tekście

PROBLEMY

 • kropki w skrótach

 • nawiasy () [] {}

 • apostrof ‘

 • cyfry samodzielne, cyfry z literami

 • przecinki i kropki między cyframi (np. w liczbach)

 • pojedyncze litery np.. Witamina C, symbole chemiczne, znaki walut, itp.

 • adresy internetowe

 • małe i duże litery,

 • znaki diakrytyczne.


Stop lista
Stop lista

 • Stop lista to wykaz bardzo często używanych słów języka naturalnego, które jednak pełnią w tekście jedynie role pomocniczą.

 • 10 najczęściej używanych wyrazów w tekstach języka naturalnego to nawet 20-30 % tekstu

 • Przykłady z języka angielskiego:

  and, an, by, from, of, or, the, with


Wska niki wi zi
Wskaźniki więzi

Wskaźniki więzi to symbole o takiej samej postaci (cyfry lub litery) przypisane do dwóch lub więcej terminów w charakterystyce wyszukiwawczej dokumentu w celu wykazania zachodzącej między nimi relacji syntagmatycznej i wyeliminowania szumu informacyjnego spowodowanego fałszywym kojarzeniem wyrazów.


Wska niki roli
Wskaźniki roli

Wskaźnik roli to symbol zaczerpnięty z ustalonego wykazu symboli, dołączony do elementu języka informacyjno-wyszukiwawczego, w celu wskazania roli pojęcia (np.. surowiec, część itp.), reprezentowanego przez ten element w tekście dokumentu.


Przyrost liczby uniterm w
Przyrost liczby unitermów

Przyrost liczby unitermów w zależności od liczby zaindeksowanych dokumentów ma charakter asymptotyczny. Przebieg funkcji przyrostu unitermów opisujemy następującym wzorem:

Y = A (1 – e-kx)

gdzie A – granica, do której dąży ogólna liczba unitermów w słownikach (zbiorach indeksowych),

k – stała przyrostu,

x – liczba zaindeksowanych dokumentów.

Wielkość A zależy od zakresu tematycznego bazy.

Współczynnik k zależy od szerokości indeksowania.


Tezaurus
Tezaurus

Tezaurus to zbiór semantycznie i hierarchicznie powiązanych terminów (deskryptorów i askryptorów) z określonej dziedziny wiedzy, stosowany do przekładu wyrazów języka naturalnego na terminy sformalizowanego języka informacyjno-wyszukiwawczego.

W tezaurusie wyróżniamy dwa typy terminów:

 • deskryptory – terminy zalecane do indeksowania

 • askryptory – terminy zakazane, którymi są synonimy, terminy bliskoznaczne, terminy zbyt ogólne i zbyt szczegółowe oraz niektóre antonimy (askryptory wprowadza się do tezaurusa w celu ułatwienia odszukania reprezentujących je deskryptorów).


Tezaurus 2
Tezaurus (2)

Podstawowe relacje, uwzględniane w tezaurusie, to:

 • relacja synonimii – relacja umożliwiająca przyporządkowania każdemu terminowi odpowiadającego mu deskryptora,

 • relacja hierarchii – relacja wskazująca na terminy węższe lub szersze (ogólne lub bardziej szczegółowe w stosunku do innych).

  Ŧ = < T , S, B >


Tezaurus 3
Tezaurus (3)

Metody tworzenia tezaurusa:

 • metoda dedukcyjna

 • metoda indukcyjna.


Tezaurus 4
Tezaurus (4)

Części tezaurusa:

 • wprowadzenie,

 • część alfabetyczno-hierarchiczna,

 • część systematyczna,

 • indeks hierarchiczny,

 • wykazy indeksów.