Stavningsst d termexpansion och kategorisering
This presentation is the property of its rightful owner.
Sponsored Links
1 / 36

Stavningsstöd, termexpansion och kategorisering PowerPoint PPT Presentation


  • 74 Views
  • Uploaded on
  • Presentation posted in: General

Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: [email protected] Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context

Download Presentation

Stavningsstöd, termexpansion och kategorisering

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Stavningsst d termexpansion och kategorisering

Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis

NADA-KTH

Email: [email protected]

Tel: 08-790 91 05

http://www.nada.kth.se/~hercules


Stavningsst d termexpansion och kategorisering1

Stavningsstöd, termexpansion och kategorisering

  • Långa frågor och frassökning

  • Stavningsstöd i sökmotorer

  • KWIC Key-words-in-context

  • Termexpansion för bättre sökning

  • Kategorisering

  • Klustring


Stavningsst d termexpansion och kategorisering

  • Medelfrågan 1,8 ord

  • Längre frågor ger bättre svar

  • Större inmatningsfält

  • Stemming och särskrivning

  • Frassökning

  • Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler,

  • Sökning på fler språk


Stavningsst d vid s kning

Stavningsstöd vid sökning

  • Många felstavade sökord i sökmotorer 10 % minst

  • Stavningsstöd => fuzzy matching


Sex olika typer av stavfel

Sex olika typer av stavfel

  • Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl.

  • Slarvfel - slinter på tangentbordet

  • Osäkra på stavningen

  • Alternativa stavningar av ord i indexet (Namn stavas på olika sätt)

  • Felstavningar i indexet

  • Särskrivningar eller hopskrivningar


M nga felstavningar i s kmotorer

Många felstavningar i sökmotorer

  • 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002))

  • Google pressrelease (2002) säger samma sak

  • 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002)

  • Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)


Stavningsst d termexpansion och kategorisering

  • Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok

  • 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt


Dynamiskt stavningsst d

Dynamiskt stavningsstöd

  • Indexet är lexikonet

  • Alla ord i indexet är rätt även felstavade ord.

  • Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet.

  • Provar med olika näraliggande tangentbordsättningar


Stavningsst d termexpansion och kategorisering

  • På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen

  • 40 procent av förslagen var särskrivningar (datamässigt tungt)

  • 29 procent var felstavningar

  • Dokumentsamlingen innehöll drygt 5 000 dokument


Stavningsst d termexpansion och kategorisering

  • I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003).

  • Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).


Stavningsst d termexpansion och kategorisering

  • Att göra automatisk särskrivning är datamässigt tungt

  • rättstavning => rätt stavning

  • Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning

  • Google, SiteSeeker


Stemming

Stemming

  • Stemming (Carlberger et al 2001)

    • Bilverkstad => bilverkstaden, bilverkstäder, mm

    • 15-18 procent bättre träffar vid sökning på svenska.

    • Andra språk upp till 30-50 procent bättre träffar


Stavningsst d termexpansion och kategorisering

  • Trunkering (bilverkst*)

  • Frågeexpansion- generera alla böjningsformer

    • bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm

  • Samma effekt som stemming men mer kostsamt datamässigt


Stavningsst d termexpansion och kategorisering

KWIC

  • KWIC- Key word in contextExtrakt av relevanta textutdrag

  • De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten

  • Tvungen att klicka in i alla dokument

  • Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!


S kmotorer med kwic

Sökmotorer med KWIC

  • Google

  • AltaVista

  • Fast

  • SiteSeeker

  • har alla KWIC idag


  • Synonymgenerering

    Synonymgenerering

    • Termexpansion vore bra att ha

      • Bilverkstad => bilverkstad, bilreparation, garage, verkstad

    • Man vill slippa använda synonymlexikon


    Stavningsst d termexpansion och kategorisering

    • LSI Latent Semantic Indexing (LSA Latent semantic analysis)

      • Bygger på vektorrymdsmodellen

      • Termer som befinner sig nära varandra kanske har med varandra att göra.

      • Tidskrävande

    • Samförekomster

      • bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm


    Stavningsst d termexpansion och kategorisering

    • Random Indexing mer effektivt än LSI/LSA

    • Approximering av LSI/LSA

    • Skapar färre dimensioner än LSI/LSA

    • Lättare att uppdatera


    Google synomyms kning

    Google synomymsökning

    • ~volvo => car, cars

    • ~volvo ~car ~cars=> motor car, volvo cars

    • ~volvo -volvo ~car -car => 240, motor, vehicle

    • ~car => BMV, auto, automotive, cars

    • ~car -car => automotive, motor, racing


    Kategorisering vid indexering och s kning

    Kategorisering vid indexeringoch sökning

    • Automatisk språkigenkänning - svenska, engelska, kinesiska, mm

    • Dokumenttyp HTML, Word, Excel, PDF mm

    • Datum

    • Kategorier i form av server, domän, eller land


    Kategorisering

    Kategorisering

    • Kategorier finns även på webbplatser

    • Kommuner tex

      • Kommunförvaltning

      • Skolor

      • Fritid

      • Kultur

      • Socialförvaltning

      • Övrigt


    Kategorisering f r nderligt

    Kategorisering föränderligt

    • På många webbplatser ändrar sig eller läggs kategorier till efter hand

    • De färdigvalda kategorierna blir snabbt obsoleta

    • Automatisk kategorisering genom bra exempel?

    • Men de flesta använder inte kategorier vid sökning


    Klustring

    Klustring

    • Klustring är klurigt

    • Enligt vilka mått skall man klustra?

      • Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen)

    • Andra mått

      • Antal ord som texterna delar

      • Antal ord som delas samt ordfrekvenserna

      • Normalisering


    Klustringalgoritmer

    Klustringalgoritmer

    • Hierarkiska

      • Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt

    • Icke hierarkiska

      • Utgå från den enskilda texten och arbeta uppåtRosell 2003 om man vill läsa mera


    Kategorisering1

    Kategorisering

    • Överlappande eller icke överlappande kategorier

    • Polyethic och Monothetic överlappande och icke överlappade egenskaper

    • Ordnade eller icke ordnade kategorier


    Vivisimo klustringss kmotorn

    Vivisimo klustringssökmotorn

    • Sökmotorn Vivisimo www.vivisimo.com har en klustrare

    • Tar de första 500 bästa träffarna och klustrar dem


    Klustring1

    Klustring

    • Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter

    • K-mean icke-hierarkisk algoritm

    • Använde stemming och ordledsuppdelning

    • Stemming förbättrar klustringsresultaten med ungefär 5 procent.

    • Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).


    Stavningsst d termexpansion och kategorisering

    • Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början

    • Därigenom kunde han se hur pass bra klustren blev.


    Semiautomatisk kategorisering

    Semiautomatisk kategorisering


    Slutsatser

    Slutsatser

    • Framtiden

    • Termexpansion

    • Särskrivning

    • Semiautomatisk kategorisering

    • Flerspråklig sökning


  • Login