1 / 32

Fredrik Olsson fredriko@sics.se

Requirements and Design Considerations for an Open and General Architecture for Information Refinement. Fredrik Olsson fredriko@sics.se. Innehåll. Introduktion Informationsförädling Några viktiga mjukvaruplattformar En fallstudie – SVENSK Allmänna observationer

una
Download Presentation

Fredrik Olsson fredriko@sics.se

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Requirements and Design Considerations for an Open and General Architecture for Information Refinement Fredrik Olsson fredriko@sics.se

  2. Innehåll • Introduktion • Informationsförädling • Några viktiga mjukvaruplattformar • En fallstudie – SVENSK • Allmänna observationer • Kravspecifikation och design av en öppen arkitektur för informationsförädling • Slutsatser

  3. Nyttan av generell och återanvändbar språkteknologimjukvara • Undvika uppfinna hjulet om och om igen • Förkorta vägen från idé till prototyp • Ett steg mot reproducerbarhet av forskningsresultat

  4. Några utmaningar • Variationer mellan och inom språk • Kunskap om uppgiften, användarna och deras situation

  5. Mål och frågor Definiera en generell och öppen arkitektur för informationsförädling. • Q-1: Hur beskriva en mängd relaterade språkteknologiuppgifter som är liten nog att försöka göra generell mjukvara för, och som samtidigt är stor nog för att rättfärdiga det merarbete som konstruerandet av sådan mjukvara medför?

  6. Mål och frågor (forts.) • Q-2: Hur kan mängden relaterade uppgifter beskrivas i termer av krav som en tänkt användare kan ha? • Q-3: Hur kan kravspecifikationen implementeras, dvs. hur ska en mjukvara som svarar mot kraven designas?

  7. Informationsförädling • Med informationsförädling menas den arbetsprocess i vilken text hanteras i syfte att komma åt de delar av innehållet som är relevant sett från ett visst perspektiv.

  8. Informationsförädling – några tillämpningsområden • Texter och mobila tjänster. SICS, DSV och room33 AB. • Data mining. SICS, eNiklas AB. • Stöd för professionella informationssökare. SICS, Patent- och Registreringsverket. • Proteinnamnsigenkänning. SICS, Virtual Genetics Laboratory AB.

  9. Mjukvaruplattformar:TIPSTER • DARPA, CIA, DoD, NIST, SPAWAR. • 1991-1998. • Mål: effektiv och billig dokumenthantering. • Objektorienterad databasarkitektur: • Dokument och samlingar av dokument. • Annoteringar, spann och attribut. • Specifikationen publikt tillgänglig. Ingen har gjort en fullständig implementation.

  10. Mjukvaruplattformar:Eurotra • EU-projekt: 12 länder, 18 institutioner, 150 forskare. • 1977-1993. • Mål 1: förindustriell prototyp av transferbaserad maskinöversättning för nio språk. • Mål 2: förbättra forskningsklimatet och kompetensen i datorlingvistik i europa. • Delar av arbetet finns tillgängligt.

  11. Mjukvaruplattformar:CLE • SRI International, Cambridge University. Engelskt projekt. • 1985-1992 (?). • Mål: domänoberoende system för att omvandla engelska till formell representation. • Inte publikt tillgänglig: ”You don’t give away a one million Pound program” (SRI:s forskningschef).

  12. Mjukvaruplattformar:ALEP • ALEP: EU-projekt. IAI, Cap Gemini, SNI, SRI-CRC, Cray Systems, SEMA, BIM. • 1991-1995. • Mål: plattform för att minska tiden från prototyp till produkt. • Möjligt att inkorporera existerande komponenter. • Publikt tillgänglig.

  13. Mjukvaruplattformar:Verbmobil • Tyskt storprojekt. 31 partners, 168,6 miljoner D-mark, 900+ forskare. • 1993-2000. • Mål: tal till tal-översättningssystem: tyska, engelska och japanska. • Resultatet finns inte publikt tillgängligt.

  14. Mjukvaruplattformar:GATE • GATE: University of Sheffield. • 1995 – • Mål: teoriobunden kommunikations- och kontrollinfrastruktur för språkteknologikomponenter. • Bygger på TIPSTER. • Fritt tillgänglig.

  15. Mjukvaruplattformar:DARPA Communicator • DARPA, MITRE, AT&T Labs, MIT, IBM, NIST. • Bygger på MIT’s Galaxy II. • Mål 1: nästa generations multimodala gränssnitt till distribuerad information. • Mål 2: en arkitektur för alla där det är lätt att anpassa och utvärdera moduler. • Fritt tillgänglig.

  16. Mjukvaruplattformar: ATLAS • NIST, MITRE, LDC. • Mål: generell arkitektur för att annotera lingvistisk data med tillhörande verktyg. • Påminner om TIPSTER. • Fritt tillgänglig: bjuder in alla att vara med.

  17. En fallstudie - SVENSK • NUTEK, SICS. • 1996-1999. • Mål: generell verktygslåda för svenska bestående av återanvändningsbara komponenter. • Bygger på GATE.

  18. TextCat SweCG Tokeniser LexToken Splitter UCP SweCG2CLE BrillTagger DSP DUP ParserBox LP-Detect

  19. En fallstudie - SVENSK • Utmaningar: • Politiska; dela med sig, licenser, dokumentation • Tekniska: integrering, inga APIer, buggar i svarta lådor • Lingvistiska: domänanpassning, avsaknad av verktyg för lingvistisk avlusning

  20. Allmänna observationer • Hög tid att utvecklare kombinerar kunskap från språkteknologiområdet med traditionell mjukvaruutveckling. • En arkitektur bör vara generell m.a.p. en klass av uppgifter, inte ett helt forskningsfält. • Olika typer av användare kan ha olika krav. • Fokusera på tillämpningsområdet. • Håll arkitekturen öppen. • Möjliggör användande av existerande och systemspecifika komponenter. • Stöd underhåll av arkiktekturen.

  21. Behov av en ny plattform - Kaba • Fanns ingen passande för informationsförädling • Full kontroll över koden • Funktionalitet • Distribution/öppenhet

  22. Kravspecifikation för informationsförädling • Användare: datorlingvist/programmerare • Kaba ett verktyg för utvecklare av informationsförädlingssystem • Tillåta integrering av existerande och specialgjorda komponenter • Bygga på öppna standarder • Favoriserar ingen speciell lingvistisk teori

  23. Information Information Information Användare Användare Kaba-baserat system Kaba-baserat system Kaba-baserat system Mjukvara Mjukvara

  24. Kravspecifikation - användarkrav • Utveckla informationsförädlingssystem • Utvärdera system • Flytta system till ny informationsdomän eller till nytt språk • Dokumentera system • Underhålla system • Skapa lektioner • Hantera data och program

  25. Design av en öppen arkitektur • Hantering av data • Metadata för komponenter (UC 7.1). • In- och utdata (UC 7.3, 7.4). • Intern representation av annoterad text (UC 7.6). • Databeständighet (UC 7.5).

  26. Design av en öppen arkitektur • Interaktion med andra • Kaba-baserat system används av annan mjukvara (UC 1.1.1). • Kaba-baserat system använder externa komponenter (UC 7.7.3). • Kaba-baserat system interagerar med människor (UC 1.2.1, 1.2.2, 1.2.3). • Distribuerad processning (UC 1.1.3, 7.7.1). • Dokumentation och lektioner (UC 1.1.4, 4, 6, 7.2).

  27. Design av en öppen arkitektur • Skapa interna (systemspecifika) komponenter (UC 7.8.1). • Använda interna komponenter (UC 7.8.3). • Underhåll av system • Underhåll av externa komponenter (UC 1.1.2, 7.7.2). • Underhåll av interna komponenter (UC 7.8.2). • Underhåll av hela system (UC 5).

  28. Design av en öppen arkitektur • Stöd för att flytta Kaba-baserade system mellan olika informationsdomäner (UC 3). • Stöd för utvärdering av system (UC 2).

  29. Slutsatser • Syftet med generella verktyg är gott, men genomförandet är problematiskt och inte alltid berättigat. • Användbara generella verktyg kräver begränsningar! • Informationsförädling bra begränsning • Kravspecifikation och designförslag kan synliggöra nya forskningsfrågor

  30. Nya forskningsfrågor - övergripande • När en hypotes om informationsförädling har implementerats i ett system, är det möjligt att använda samma system, eller delar av det, för att testa en annan hypotes? • När är det bättre att bygga ett helt nytt system än att återanvända ett existerande?

  31. Nya forskningsfrågor - systemnivå • Vilka metoder är användbara för att samla och annotera data i syfte att träna och utvärdera komponenter för informationsförädling? • Vilka maskininlärningsmetoder är lämpliga för vilka informationsförädlingsuppgifter?

  32. Nya forskningsfrågor – bortom systemet • Givet att ett informationsförädlingssystem ska konstrueras och att det är tänkt att användas och kanske t.o.m. definieras av användare som inte är experter; vilka metoder finns det för att fånga slutanvändarnas informationsbehov?

More Related