zpracov n informac a znalost automatick indexov n
Download
Skip this Video
Download Presentation
Zpracování informací a znalostí Automatické indexování

Loading in 2 Seconds...

play fullscreen
1 / 11

Zpracování informací a znalostí Automatické indexování - PowerPoint PPT Presentation


  • 156 Views
  • Uploaded on

Zpracování informací a znalostí Automatické indexování. Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství. Automatická charakteristika obsahu dokumentů. Literatura: Rauch, J.: Metody zpracování informací II, kapitola 5

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Zpracování informací a znalostí Automatické indexování' - martin-perez


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
zpracov n informac a znalost automatick indexov n

Zpracování informací a znalostíAutomatické indexování

Doc. RNDr. Jan Rauch, CSc.

Katedra informačního a znalostního inženýrství

automatick charakteristika obsahu dokument
Automatická charakteristika obsahu dokumentů

Literatura:

  • Rauch, J.: Metody zpracování informací II, kapitola 5
  • SALTON, G. - McGILL, M.: Introduction to Modern Information Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s.
  • KOWALSKI, J.G. – MAYBURY, M.T.: Information Storage and Retrieval Systems. Theory and Implementation. Kluwer Academic Publishers 2000, 318 s.
automatick charakteristika obsahu dokument1
Automatická charakteristika obsahu dokumentů
  • důvody automatické charakteristiky obsahu
    • vyloučení subjektivity
    • rostoucí počet dokumentů
  • jednoduchá indexovací metoda
  • poznámky - problém specializovaného fondu
  • modifikace jednoduché indexovací metody
  • další poznámky
jednoduch indexovac metoda
Jednoduchá indexovací metoda

Princip:

Jestliže se slovo vyskytuje v dokumentu s dostatečnou

frekvencí, pak se dokument týká pojmu odpovídajícímu

tomuto slovu

Vstup:

N dokumentů D1,…, DN

Výstup:

Klíčová slova pro každý dokument

jednoduch indexovac metoda postup
Jednoduchá indexovací metoda - postup

1) Vynechej stop slova.

2) Spočti frekvence zbývajících slov S1, …, SK.

Fi,j – frekvence slova Sj v dokumentu Di

3) Zvol prahovou hodnotu P.

Sj je klíčové slovo pro Di právě když Fi,j> P

jednoduch indexovac metoda p klad

S1

S2

S3

S4

S5

S6

počítač

informace

vyhledávání

historie

systém

firma

D1

12

15

9

1

5

0

D2

11

4

1

13

5

1

D10 000

5

13

8

1

3

15

Jednoduchá indexovací metoda - příklad

Dokumenty:D1 Novák: Vyhledávání informací pomocí počítačů.D2 Kadlec: Historie počítačů. ...D10 000 Kovář: Informace o firmách prahová hodnota P = 6

jednoduch indexovac metoda pozn mky
Jednoduchá indexovací metoda - poznámky
  • Častý výskyt slova znamená, že dokument se týká tématu odpovídajícího tomuto slovu.
  • Jestliže se dokument týká tématu odpovídajícího nějakému slovu, pak se toto slovo v dokumentu vyskytuje s velkou frekvencí.
  • Slova s vysokou frekvencí nemusí rozlišit dokumenty na relevantní a irelevantní. („Počítač" ve fondu informatické literatury).
modifikace jednoduch indexovac metody
Modifikace jednoduché indexovací metody

Cíl: Klíčová slova

    • charakterizující obsah
    • oddělující dokumenty

Princip:

  • vyjádříme stupeň kterým slovo Sj charakterizuje obsah dokumentu Di :

Fi,j - frekvence slova Sj v dokumentu Di

  • vyjádříme stupeň kterým slovo Sj odděluje dokumenty: log (N/DFj )

DFj – počet dokumentů obsahujících Sj

  • použijeme váhu Wi,j = Fi,j * log (N/DFj ) místo frekvence Fi,j
modifikovan jednoduch indexovac metoda postup
Modifikovaná jednoduchá indexovací metoda – postup

1) Vynechej stop slova.

2) Spočti váhy Wi,j frekvence zbývajících slov S1, …, SK.

Wi,j – frekvence slova Sj v dokumentu Di

3) Zvol prahovou hodnotu P.

Sj je klíčové slovo pro Di právě když Wi,j> P

slide10

Slovo Sj

DFj

%

N/DFj

log(N/DFj )

Fi,j

Wi,j

Databáze

10

0.1

1 000

3

1

3

2

6

5

15

Uživatel

30

0.3

333.3

2.52

1

2.5

3

7.6

5

12.6

Tiskárna

100

1.0

100

2

1

2

3

6

5

10

Metoda

500

5.0

20

1.3

1

1.3

5

6.5

Počítač

2000

20

5

0.7

1

0.7

9

6.3

Informace

9000

90

1.1

0.15

1

0,1

42

6,1

Váhy slov – příklad

N = 10 000, DFj = počet dokumentů se slovem Sj

Fi,j = frekvence slova Sj pro dokument Di , Wi,j = Fi,j * log(N/ DFj), práh P = 6

automatick charakteristika obsahu dal pozn mky
Automatická charakteristika obsahu - další poznámky
  • Vzít v úvahu délku dokumentu – uvažovat celkový počet slov
  • Výrazy vyskytující se v mnoha dokumentech nahradit výrazy s užším významem: informace  obchodní informace
  • Výrazy vyskytující se v málo dokumentech nahradit výrazy s širším významem: algebra  matematika
  • Nechat u výrazu jeho váhu, umožnit vyjádřit váhu výrazu v dotazu a vzít obě váhy v úvahu při posuzování relevance dokumentu k dotazu
  • … viz literaturu
ad