Trzy metody automatycznego indeksowania dokument w
This presentation is the property of its rightful owner.
Sponsored Links
1 / 43

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW PowerPoint PPT Presentation


  • 67 Views
  • Uploaded on
  • Presentation posted in: General

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW. indeksowanie statystyczne indeksowanie probabilistyczne indeksowanie lingwistyczne. Indeksowanie statystyczne.

Download Presentation

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Trzy metody automatycznego indeksowania dokument w

TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW

  • indeksowanie statystyczne

  • indeksowanie probabilistyczne

  • indeksowanie lingwistyczne


Indeksowanie statystyczne

Indeksowanie statystyczne

Metody wykorzystujące statystyczne właściwości wyrazów lub wyrażeń występujących w tekście dokumentu w aspekcie danego dokumentu lub całego dokumentu.


Indeksowanie probabilistyczne

Indeksowanie probabilistyczne

Metody wykorzystujące rachunek prawdopodobieństwa w celu określenia prawdopodobieństwa wyszukania dokumentu relewantnego oraz wykorzystujące rozkłady częstości terminów w celu określenia tego prawdopodobieństwa.


Indeksowanie lingwistyczne

Indeksowanie lingwistyczne

Metody wykorzystujące automatyczną analizę językową w celu wyróżnienia w tekście dokumentu wyrażeń informacyjnie ważnych, znaczących dla jego treści.


J zyki informacyjno wyszukiwawcze

Języki informacyjno-wyszukiwawcze

JI-W to specjalistyczny sztuczny język, przeznaczony do odtwarzania podstawowej treści dokumentu i (lub) pytania informacyjnego w celu wyszukania ze zbioru informacyjnego tylko tych dokumentów, które odpowiadają na pytanie.

(na podstawie słownika terminologicznego)


J zyki informacyjno wyszukiwawcze1

Języki informacyjno-wyszukiwawcze

JI to język sztuczny, którego wyspecjalizowaną funkcją jest opis dokumentów w celu późniejszego odszukania ich na żądanie użytkownika. JI wyraża treść i/lub charakterystyki formalne ... dokumentów. JI umożliwia odwzorowanie treści dokumentu przez tworzenie jednoznacznej zwięzłej jej reprezentacji (możliwie najbardziej odpowiedniej semantycznie w stosunku do pełnego dokumentu) oraz jednoznaczne i sformalizowane wyrażenie charakterystyk formalnych dokumentu przez podanie (wyliczanie) ich w wyborze i w postaci ustalonych regułami danego języka informacyjnego. (E.Ścibor)


Klasyfikacja j zyk w informacyjno wyszukiwawczych

Klasyfikacja językówinformacyjno-wyszukiwawczych

  • Prekoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego na etapie budowanie tego języka.

  • Postkoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego podczas indeksowania lub wyszukiwania informacji, a nie podczas budowy tego języka.


Trzy metody automatycznego indeksowania dokument w

1.Prekoordynacyjne języki inf.-wysz.1.1.Klasyfikacje wyliczające1.1.1.Klasyfikacje hierarchiczne1.1.2.Klasyfikacje alfabetyczno-przedmiotowe1.2.Klasyfikacje fasetowe

2.Postkoordynacyjne języki inf.-wysz.2.1.Języki deskryptorowe2.2.1.Język unitermów2.1.2.Język słów kluczowych2.1.3.Tezaurusy2.2.Kody semantyczne2.3.Syntole


Klasyfikacje hierarchiczne 1

Klasyfikacje hierarchiczne (1)

Klasyfikacje hierarchiczne mają strukturę „drzewa wiedzy”, którego korzeń to całość określonej wiedzy (uniwersum), który następnie dzieli się na węższe, wzajemnie wykluczające się podklasy.


Klasyfikacje hierarchiczne 2

Klasyfikacje hierarchiczne (2)

Klasyfikacja – to system klas.

Klasyfikowanie – to proces przyporządkowywania obiektów (dokumentów, informacji, faktów, przedmiotów itp.) do klas według najistotniejszych cech, posiadanych przez te obiekty i jednocześnie odróżniających je od innych.

Podstawa podziału – to cecha według której odbywa się podział.


Klasyfikacje hierarchiczne 3

Klasyfikacje hierarchiczne (3)

Klasyfikacja powinna podlegać następującym regułom formalno-logicznym:

  • podziału klas powinno się dokonywać tylko według podstawy,

  • otrzymane w wyniku podziału podklasy powinny wykluczać się wzajemnie,

  • podział na podklasy powinien być równomierny,

  • podział na podklasy powinien być ciągły (bez przeskoków).


Klasyfikacje hierarchiczne 4

Klasyfikacje hierarchiczne (4)

Podstawowe rodzaje relacji między członami klasyfikacji:

  • hierarchia (podrzędność) – relacja, w której jedna klasa stanowi podklasę innej, szerszej,

  • współzależność – wiąże klasy, które są podklasami jednej i tej samej szerszej klasy.


Klasyfikacja ukd

Klasyfikacja UKD

  • 1876 r. - system klasyfikacji dziesiętnej zaproponowany przez M. Deweya,

  • 1905 r. – klasyfikacja UKD, zaproponowana przez Belgów: Paul Otlet i Henri la Fontaine,

  • obecnie rozwojem UKD zajmuje się międzynarodowa organizacja FID.


Klasyfikacja ukd 2

Klasyfikacja UKD (2)

Klasyfikacja dziesiętna UKD polega na tym, że cała wiedza ludzka, potraktowana jako całość, podzielona została na 10 działów głównych pierwszego stopnia, oznaczonych symbolami jednocyfrowymi od 0 do 9. Każdy z tych działów głównych dzieli się następnie na 10 działów drugiego stopnia, oznaczonych symbolami dwucyfrowymi, z których każdy dzieli się na dalszych 10 działów itd..


Klasyfikacja ukd 3

Klasyfikacja UKD (3)

Tablice główne UKD:

0 – zagadnienia dotyczące podstawy wiedzy i kultury

1 – systemy filozoficzne, etyka, logika, psychologia

2 – teologia

3 – nauki społeczne – socjologia, ekonomia, ekonomika, prawo, polityka, opieka społeczna, oświata, etnografia

4 – (wolny)

5 – nauki ścisłe i przyrodnicze – matematyka, astronomia, fizyka, chemia, geologia, biologia, botanika, zoologia

6 – technika

7 – sztuki piękne, architektura, fotografia, kinematografia, sport

8 – językoznawstwo, lingwistyka, filologia, literatura

9 – historia, geografia.


Klasyfikacja ukd 4

Klasyfikacja UKD (4)

Oprócz tablic głównych utworzono tablice symboli pomocniczych:

  • tablice poddziałów wspólnych – (globalne) zawierające powtarzające się elementy

  • tablice poddziałów analitycznych (lokalne, w obrębie danego działu).


Klasyfikacja ukd 5

Klasyfikacja UKD (5)

Tablice UKD:

  • tablice główne

  • tablice pomocnicze (wspólne i analityczne)

  • indeksy przedmiotowe.

    Przykład kodu:

    629.114.6BMW.004.5

    instrukcja obsługi technicznej samochodu BMW.


Klasyfikacje hierarchiczne

Klasyfikacje hierarchiczne

ZALETY:

  • niskie kwalifikacje przy indeksowaniu,

  • do kodowania stosuje się tylko cyfry i litery.

    WADY:

  • brak indeksowania wieloaspektowego,

  • nie są dogodne do wyszukiwania informacji według wcześniej nie przewidzianego zestawienia cech,

  • mała głębokość podziału,

  • regularnie odbiegają od osiągniętego poziomu wiedzy.


Klasyfikacje alfabetyczno przedmiotowe

Klasyfikacjealfabetyczno-przedmiotowe

Elementy strukturalne klasyfikacji alfabetyczno-przedmiotowej:

  • temat hasła przedmiotowego,

  • określnik hasła przedmiotowego,

  • zapis przedmiotowy (dodatkowe uściślenie hasła przedmiotowego).


Klasyfikacje alfabetyczno przedmiotowe 2

Klasyfikacjealfabetyczno-przedmiotowe (2)

ZALETY:

  • alfabetyczny porządek jest ogólnie znany, dlatego też do jego stosowania nie są potrzebne żadne specjalne znajomości ani środki pomocnicze,

  • o wiele łatwiejsze jest wprowadzanie nowych terminów niż w klasyfikacjach hierarchicznych,

    WADY:

  • nie jest możliwe wyszukiwanie informacji według dowolnych połączeń cech,

  • włączenie synonimów do przedmiotowego wykazu haseł wymaga zastosowania wielokrotnie krzyżujących się odsyłaczy, co znacznie komplikuje strukturę.


Klasyfikacje fasetowe

Klasyfikacje fasetowe

1933 r. indyjski filozof i teoretyk klasyfikacji Shiyali Ramamrita Ranganathan (1892-1972) zaproponował klasyfikację dwukropkową (ang. Colon Classification).

Ranganathan wyróżnił 5 kategorii podstawowych:

  • Indywiduum (ang. Personality)

  • Materia (ang. Matter)

  • Energia (ang. Energy)

  • Przestrzeń (ang. Space)

  • Czas (ang. Time).


Klasyfikacje fasetowe 2

Klasyfikacje fasetowe (2)

Faseta – dowolna z podstawowych kategorii przedmiotów lub ich nazw, stosowanych w danej dziedzinie.

Fokus – każdy termin fasety.

Formuła fasetowa – niezmienna kolejność (faset) w zakodowanym zapisie.


Klasyfikacje fasetowe 3

Klasyfikacje fasetowe (3)

Przykład.

Dziedzina: FILMY

Fasety: GATUNEK, METRAŻ, KOLOR, FORMAT

Fokusy:

GATUNEK: fabularne, dokumentalne, kroniki

METRAŻ: pełnometrażowe, krótkometrażowe

KOOLOR: czano-biały, kolorowy, mieszany

FORMAT: zwykłe, panoramiczne.

G2,M2,K1,F2 – to film dokumentalny, krótkometrażowy, czarno-biały, panoramiczny.


Klasyfikacje fasetowe 4

Klasyfikacje fasetowe (4)

ZALETY:

  • umożliwiają indeksowanie wieloaspektowe,

  • ułatwiają dogodne gromadzenie w jednym miejscu wszystkich aspektów jakiegoś tematu lub przedmiotu (w klasyfikacjach hierarchicznych te aspekty mogą być rozrzucone po różnych członach podziału, przy czy zwykle nie istnieją reguły odszukania tych członów),

  • dopuszczają zazwyczaj większą głębokość podziału pojęć niż klasyfikacje hierarchiczne,

  • Pozwalają łatwiej wprowadzać do swoich tablic nowe terminy (fokusy).


Klasyfikacje fasetowe 5

Klasyfikacje fasetowe (5)

WADY:

  • duża pracochłonność w tworzeniu klasyfikacji,

  • trudności we wprowadzaniu do wąsko specjalistycznych klasyfikacji nowych terminów z dziedzin pokrewnych.


Kody semantyczne

Kody semantyczne

Kodami semantycznymi nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne między jednostkami leksykalnymi, tzn. relacje zachodzące między słowami określonego języka, niezależnie od kontekstu, w którym słowa te występują, wyrażone są przez same struktury ich jednostek leksykalnych.


Kody semantyczne 2

Kody semantyczne (2)

  • USA – kod semantyczny Perry-Kenta

    J.W.Perry i A. Kent w latach 1954-1959

  • kod opracowano na Western Research University (WRU) w Cleveland w satnie Ohio w USA dla Amerykańskiego Stowarzyszenia Metalurgów (American Society for Metals – ASM)

  • kod ASM-WRU.


Kody semantyczne 3

Kody semantyczne (3)

  • ZSRR 1960-1964 - język RX-kodów

  • Ukraina, Kijów

  • zastosowano w systemie BIT.


Syntole

Syntole

Syntolami nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne wyrażone są odsyłaczami w słowniku, a także za pomocą tablic i/lub schematów graficznych.


Syntole 2

Syntole (2)

  • SYNTagmatic Organization Language – język o syntagmatycznej organizacji,

  • 1660-1662 Maison des Sciences de l’Homme w Paryżu.

    Język SYNTOL, podobnie jak kody semantyczne, nie znalazł szerszego, praktycznego zastosowania.


J zyki deskryptorowe

Języki deskryptorowe

  • Unitermy

  • Słowa kluczowe

  • Tezaurusy


Zalety i wady

Zalety i Wady

Zalety:

  • możliwość prowadzenia efektywnego wyszukiwania informacji według dowolnego, wcześniej nie przewidzianego, zestawienia cech,

  • możliwość łatwego wprowadzania nowych terminów,

  • zazwyczaj stosunkowo niewielki objętościowo słownik podstawowy.


Zalety i wady1

Zalety i Wady

Wady:

  • trudniejsze niż przy zastosowaniu klasyfikacji hierarchicznej i fasetowej wyszukiwanie informacji według pytań tematycznych (pytań dotyczących ogólnych zagadnień),

  • bardzo pracochłonne generowanie słów kluczowych,

  • trudne i pracochłonne budowanie tezaurusów.


Unitermy a s owa kluczowe

Unitermy a słowa kluczowe

Unitermy to pojedyncze wyrazy języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.

Słowa kluczowe to wyrazy lub wyrażenia języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.


Identyfikacja uniterm w w tek cie

Identyfikacja unitermów w tekście

PROBLEMY

  • kropki w skrótach

  • nawiasy () [] {}

  • apostrof ‘

  • cyfry samodzielne, cyfry z literami

  • przecinki i kropki między cyframi (np. w liczbach)

  • pojedyncze litery np.. Witamina C, symbole chemiczne, znaki walut, itp.

  • adresy internetowe

  • małe i duże litery,

  • znaki diakrytyczne.


Stop lista

Stop lista

  • Stop lista to wykaz bardzo często używanych słów języka naturalnego, które jednak pełnią w tekście jedynie role pomocniczą.

  • 10 najczęściej używanych wyrazów w tekstach języka naturalnego to nawet 20-30 % tekstu

  • Przykłady z języka angielskiego:

    and, an, by, from, of, or, the, with


Wska niki wi zi

Wskaźniki więzi

Wskaźniki więzi to symbole o takiej samej postaci (cyfry lub litery) przypisane do dwóch lub więcej terminów w charakterystyce wyszukiwawczej dokumentu w celu wykazania zachodzącej między nimi relacji syntagmatycznej i wyeliminowania szumu informacyjnego spowodowanego fałszywym kojarzeniem wyrazów.


Wska niki roli

Wskaźniki roli

Wskaźnik roli to symbol zaczerpnięty z ustalonego wykazu symboli, dołączony do elementu języka informacyjno-wyszukiwawczego, w celu wskazania roli pojęcia (np.. surowiec, część itp.), reprezentowanego przez ten element w tekście dokumentu.


Przyrost liczby uniterm w

Przyrost liczby unitermów

Przyrost liczby unitermów w zależności od liczby zaindeksowanych dokumentów ma charakter asymptotyczny. Przebieg funkcji przyrostu unitermów opisujemy następującym wzorem:

Y = A (1 – e-kx)

gdzie A – granica, do której dąży ogólna liczba unitermów w słownikach (zbiorach indeksowych),

k – stała przyrostu,

x – liczba zaindeksowanych dokumentów.

Wielkość A zależy od zakresu tematycznego bazy.

Współczynnik k zależy od szerokości indeksowania.


Tezaurus

Tezaurus

Tezaurus to zbiór semantycznie i hierarchicznie powiązanych terminów (deskryptorów i askryptorów) z określonej dziedziny wiedzy, stosowany do przekładu wyrazów języka naturalnego na terminy sformalizowanego języka informacyjno-wyszukiwawczego.

W tezaurusie wyróżniamy dwa typy terminów:

  • deskryptory – terminy zalecane do indeksowania

  • askryptory – terminy zakazane, którymi są synonimy, terminy bliskoznaczne, terminy zbyt ogólne i zbyt szczegółowe oraz niektóre antonimy (askryptory wprowadza się do tezaurusa w celu ułatwienia odszukania reprezentujących je deskryptorów).


Tezaurus 2

Tezaurus (2)

Podstawowe relacje, uwzględniane w tezaurusie, to:

  • relacja synonimii – relacja umożliwiająca przyporządkowania każdemu terminowi odpowiadającego mu deskryptora,

  • relacja hierarchii – relacja wskazująca na terminy węższe lub szersze (ogólne lub bardziej szczegółowe w stosunku do innych).

    Ŧ = < T , S, B >


Tezaurus 3

Tezaurus (3)

Metody tworzenia tezaurusa:

  • metoda dedukcyjna

  • metoda indukcyjna.


Tezaurus 4

Tezaurus (4)

Części tezaurusa:

  • wprowadzenie,

  • część alfabetyczno-hierarchiczna,

  • część systematyczna,

  • indeks hierarchiczny,

  • wykazy indeksów.


  • Login