Stavningsst d termexpansion och kategorisering
Download
1 / 36

Stavningsstöd, termexpansion och kategorisering - PowerPoint PPT Presentation


  • 112 Views
  • Uploaded on
  • Presentation posted in: General

Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha

Download Presentation

Stavningsstöd, termexpansion och kategorisering

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Stavningsst d termexpansion och kategorisering
Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis

NADA-KTH

Email: hercules@nada.kth.se

Tel: 08-790 91 05

http://www.nada.kth.se/~hercules


Stavningsst d termexpansion och kategorisering1
Stavningsstöd, termexpansion och kategorisering

  • Långa frågor och frassökning

  • Stavningsstöd i sökmotorer

  • KWIC Key-words-in-context

  • Termexpansion för bättre sökning

  • Kategorisering

  • Klustring


Stavningsst d termexpansion och kategorisering

  • Medelfrågan 1,8 ord

  • Längre frågor ger bättre svar

  • Större inmatningsfält

  • Stemming och särskrivning

  • Frassökning

  • Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler,

  • Sökning på fler språk


Stavningsst d vid s kning
Stavningsstöd vid sökning

  • Många felstavade sökord i sökmotorer 10 % minst

  • Stavningsstöd => fuzzy matching


Sex olika typer av stavfel
Sex olika typer av stavfel

  • Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl.

  • Slarvfel - slinter på tangentbordet

  • Osäkra på stavningen

  • Alternativa stavningar av ord i indexet (Namn stavas på olika sätt)

  • Felstavningar i indexet

  • Särskrivningar eller hopskrivningar


M nga felstavningar i s kmotorer
Många felstavningar i sökmotorer

  • 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002))

  • Google pressrelease (2002) säger samma sak

  • 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002)

  • Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)


Stavningsst d termexpansion och kategorisering


Dynamiskt stavningsst d
Dynamiskt stavningsstöd svensk-engelsk ordbok

  • Indexet är lexikonet

  • Alla ord i indexet är rätt även felstavade ord.

  • Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet.

  • Provar med olika näraliggande tangentbordsättningar


Stavningsst d termexpansion och kategorisering


Stavningsst d termexpansion och kategorisering

  • I ett annat kontrollerat experiment på av stavfelen79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003).

  • Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).


Stavningsst d termexpansion och kategorisering


Stemming
Stemming av stavfelen

  • Stemming (Carlberger et al 2001)

    • Bilverkstad => bilverkstaden, bilverkstäder, mm

    • 15-18 procent bättre träffar vid sökning på svenska.

    • Andra språk upp till 30-50 procent bättre träffar


Stavningsst d termexpansion och kategorisering

  • Trunkering (bilverkst*) av stavfelen

  • Frågeexpansion- generera alla böjningsformer

    • bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm

  • Samma effekt som stemming men mer kostsamt datamässigt


Stavningsst d termexpansion och kategorisering
KWIC av stavfelen

  • KWIC- Key word in contextExtrakt av relevanta textutdrag

  • De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten

  • Tvungen att klicka in i alla dokument

  • Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!


S kmotorer med kwic
Sökmotorer med KWIC av stavfelen

  • Google

  • AltaVista

  • Fast

  • SiteSeeker

  • har alla KWIC idag


  • Synonymgenerering
    Synonymgenerering av stavfelen

    • Termexpansion vore bra att ha

      • Bilverkstad => bilverkstad, bilreparation, garage, verkstad

    • Man vill slippa använda synonymlexikon


    Stavningsst d termexpansion och kategorisering


    Stavningsst d termexpansion och kategorisering


    Google synomyms kning
    Google synomymsökning av stavfelen

    • ~volvo => car, cars

    • ~volvo ~car ~cars=> motor car, volvo cars

    • ~volvo -volvo ~car -car => 240, motor, vehicle

    • ~car => BMV, auto, automotive, cars

    • ~car -car => automotive, motor, racing


    Kategorisering vid indexering och s kning
    Kategorisering vid indexering av stavfelenoch sökning

    • Automatisk språkigenkänning - svenska, engelska, kinesiska, mm

    • Dokumenttyp HTML, Word, Excel, PDF mm

    • Datum

    • Kategorier i form av server, domän, eller land


    Kategorisering
    Kategorisering av stavfelen

    • Kategorier finns även på webbplatser

    • Kommuner tex

      • Kommunförvaltning

      • Skolor

      • Fritid

      • Kultur

      • Socialförvaltning

      • Övrigt


    Kategorisering f r nderligt
    Kategorisering föränderligt av stavfelen

    • På många webbplatser ändrar sig eller läggs kategorier till efter hand

    • De färdigvalda kategorierna blir snabbt obsoleta

    • Automatisk kategorisering genom bra exempel?

    • Men de flesta använder inte kategorier vid sökning


    Klustring
    Klustring av stavfelen

    • Klustring är klurigt

    • Enligt vilka mått skall man klustra?

      • Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen)

    • Andra mått

      • Antal ord som texterna delar

      • Antal ord som delas samt ordfrekvenserna

      • Normalisering


    Klustringalgoritmer
    Klustringalgoritmer av stavfelen

    • Hierarkiska

      • Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt

    • Icke hierarkiska

      • Utgå från den enskilda texten och arbeta uppåtRosell 2003 om man vill läsa mera


    Kategorisering1
    Kategorisering av stavfelen

    • Överlappande eller icke överlappande kategorier

    • Polyethic och Monothetic överlappande och icke överlappade egenskaper

    • Ordnade eller icke ordnade kategorier


    Vivisimo klustringss kmotorn
    Vivisimo klustringssökmotorn av stavfelen

    • Sökmotorn Vivisimo www.vivisimo.com har en klustrare

    • Tar de första 500 bästa träffarna och klustrar dem


    Klustring1
    Klustring av stavfelen

    • Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter

    • K-mean icke-hierarkisk algoritm

    • Använde stemming och ordledsuppdelning

    • Stemming förbättrar klustringsresultaten med ungefär 5 procent.

    • Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).


    Stavningsst d termexpansion och kategorisering


    Semiautomatisk kategorisering
    Semiautomatisk kategorisering kategorier som nyhetstexterna kom ifrån från början


    Slutsatser
    Slutsatser kategorier som nyhetstexterna kom ifrån från början

    • Framtiden

    • Termexpansion

    • Särskrivning

    • Semiautomatisk kategorisering

    • Flerspråklig sökning


    ad
  • Login