Stavningsst d termexpansion och kategorisering
Download
1 / 36

Stavningsstöd, termexpansion och kategorisering - PowerPoint PPT Presentation


  • 124 Views
  • Uploaded on

Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: [email protected] Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Stavningsstöd, termexpansion och kategorisering' - josephine-stephens


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Stavningsst d termexpansion och kategorisering
Stavningsstöd, termexpansion och kategorisering

Hercules Dalianis

NADA-KTH

Email: [email protected]

Tel: 08-790 91 05

http://www.nada.kth.se/~hercules


Stavningsst d termexpansion och kategorisering1
Stavningsstöd, termexpansion och kategorisering

  • Långa frågor och frassökning

  • Stavningsstöd i sökmotorer

  • KWIC Key-words-in-context

  • Termexpansion för bättre sökning

  • Kategorisering

  • Klustring


  • Medelfrågan 1,8 ord

  • Längre frågor ger bättre svar

  • Större inmatningsfält

  • Stemming och särskrivning

  • Frassökning

  • Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler,

  • Sökning på fler språk


Stavningsst d vid s kning
Stavningsstöd vid sökning

  • Många felstavade sökord i sökmotorer 10 % minst

  • Stavningsstöd => fuzzy matching


Sex olika typer av stavfel
Sex olika typer av stavfel

  • Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl.

  • Slarvfel - slinter på tangentbordet

  • Osäkra på stavningen

  • Alternativa stavningar av ord i indexet (Namn stavas på olika sätt)

  • Felstavningar i indexet

  • Särskrivningar eller hopskrivningar


M nga felstavningar i s kmotorer
Många felstavningar i sökmotorer

  • 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002))

  • Google pressrelease (2002) säger samma sak

  • 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002)

  • Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)



Dynamiskt stavningsst d
Dynamiskt stavningsstöd svensk-engelsk ordbok

  • Indexet är lexikonet

  • Alla ord i indexet är rätt även felstavade ord.

  • Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet.

  • Provar med olika näraliggande tangentbordsättningar



  • I ett annat kontrollerat experiment på av stavfelen79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003).

  • Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).



Stemming
Stemming av stavfelen

  • Stemming (Carlberger et al 2001)

    • Bilverkstad => bilverkstaden, bilverkstäder, mm

    • 15-18 procent bättre träffar vid sökning på svenska.

    • Andra språk upp till 30-50 procent bättre träffar


  • Trunkering (bilverkst*) av stavfelen

  • Frågeexpansion- generera alla böjningsformer

    • bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm

  • Samma effekt som stemming men mer kostsamt datamässigt


KWIC av stavfelen

  • KWIC- Key word in contextExtrakt av relevanta textutdrag

  • De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten

  • Tvungen att klicka in i alla dokument

  • Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!


S kmotorer med kwic
Sökmotorer med KWIC av stavfelen

  • Google

  • AltaVista

  • Fast

  • SiteSeeker

  • har alla KWIC idag


  • Synonymgenerering
    Synonymgenerering av stavfelen

    • Termexpansion vore bra att ha

      • Bilverkstad => bilverkstad, bilreparation, garage, verkstad

    • Man vill slippa använda synonymlexikon




    Google synomyms kning
    Google synomymsökning av stavfelen

    • ~volvo => car, cars

    • ~volvo ~car ~cars=> motor car, volvo cars

    • ~volvo -volvo ~car -car => 240, motor, vehicle

    • ~car => BMV, auto, automotive, cars

    • ~car -car => automotive, motor, racing


    Kategorisering vid indexering och s kning
    Kategorisering vid indexering av stavfelenoch sökning

    • Automatisk språkigenkänning - svenska, engelska, kinesiska, mm

    • Dokumenttyp HTML, Word, Excel, PDF mm

    • Datum

    • Kategorier i form av server, domän, eller land


    Kategorisering
    Kategorisering av stavfelen

    • Kategorier finns även på webbplatser

    • Kommuner tex

      • Kommunförvaltning

      • Skolor

      • Fritid

      • Kultur

      • Socialförvaltning

      • Övrigt


    Kategorisering f r nderligt
    Kategorisering föränderligt av stavfelen

    • På många webbplatser ändrar sig eller läggs kategorier till efter hand

    • De färdigvalda kategorierna blir snabbt obsoleta

    • Automatisk kategorisering genom bra exempel?

    • Men de flesta använder inte kategorier vid sökning


    Klustring
    Klustring av stavfelen

    • Klustring är klurigt

    • Enligt vilka mått skall man klustra?

      • Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen)

    • Andra mått

      • Antal ord som texterna delar

      • Antal ord som delas samt ordfrekvenserna

      • Normalisering


    Klustringalgoritmer
    Klustringalgoritmer av stavfelen

    • Hierarkiska

      • Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt

    • Icke hierarkiska

      • Utgå från den enskilda texten och arbeta uppåtRosell 2003 om man vill läsa mera


    Kategorisering1
    Kategorisering av stavfelen

    • Överlappande eller icke överlappande kategorier

    • Polyethic och Monothetic överlappande och icke överlappade egenskaper

    • Ordnade eller icke ordnade kategorier


    Vivisimo klustringss kmotorn
    Vivisimo klustringssökmotorn av stavfelen

    • Sökmotorn Vivisimo www.vivisimo.com har en klustrare

    • Tar de första 500 bästa träffarna och klustrar dem


    Klustring1
    Klustring av stavfelen

    • Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter

    • K-mean icke-hierarkisk algoritm

    • Använde stemming och ordledsuppdelning

    • Stemming förbättrar klustringsresultaten med ungefär 5 procent.

    • Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).



    Semiautomatisk kategorisering
    Semiautomatisk kategorisering kategorier som nyhetstexterna kom ifrån från början


    Slutsatser
    Slutsatser kategorier som nyhetstexterna kom ifrån från början

    • Framtiden

    • Termexpansion

    • Särskrivning

    • Semiautomatisk kategorisering

    • Flerspråklig sökning


    ad