1 / 18

CLARIN/D-SPIN Technische Infrastruktur

CLARIN/D-SPIN Technische Infrastruktur. Peter Wittenburg. Wer bin ich ?. komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden , Technologie , Infrastruktur , Archivierung , etc seit 2000 involviert in DOBES was ein tolles Projekt war und ist

pekelo
Download Presentation

CLARIN/D-SPIN Technische Infrastruktur

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CLARIN/D-SPIN TechnischeInfrastruktur Peter Wittenburg

  2. Wer bin ich? • kommevom MPI fürPsycholinguistik • dort 30 JahreverantwortlichfürMethoden, Technologie, Infrastruktur, Archivierung, etc • seit 2000 involviert in DOBES was eintollesProjekt war und ist • Mitglied des MPG IT Ausschusses - kenne die Welt der Physiker, Chemiker etc • seit 2000 Teilnahme an EU Standardisierungs- und Infrastruktur-Projekten • seit 2008 aktivein CLARIN

  3. Was sollicherzählen? • MeineAufgabeistes, IhneneinenkurzenÜberblicküber die technischeInfrastrukturzugeben, an der CLARIN arbeitet und die Ihnen (wahrscheinlichnur den etwasJüngeren) bei der wissenschaftlichenArbeithelfenkönnte. • NatürlichwerdensiemitArgwohnaufpassen, was ich sage, dennwirwissenalle: esgibtnichtsumsonst. Was ist also der Preis, was ist der Gewinn und wannistereinlösbar? • IchbitteSieinsofern um Nachsicht, alsdassicheinigesnursehrverkürztoder gar nichterwähnenkann. N Minuten verlustbehaftete Kompression CLARIN/D-SPIN Infrastruktur

  4. Die Aufgabe • Die entscheidendeFrageist, ob esWegegibt, die enormeFragmentierung in unsererDisziplinzuüberwinden - die Verschiedenartigkeit der Formate, der BeschreibunglinguistischerPhänomene, der unterschiedlichenSichtbarkeit und Zugriffsgestaltung etc. • und daalleinteressiertenWissenschaftler - vorallem in den Humanities - europaweit die gleichenProblemehaben, machtes Sinn, grenzenübergreifendzudenken und zuhandeln • CLARIN isteuropäisch und D-SPIN ist die deutsche Gruppe. • EinpaarBeispielesindbesseralsabstrakteErklärungen.

  5. Schon mal versucht? • HabenSieschon mal versucht, einen Text miteiner Audio-Aufnahmeautomatischabzugleichen? Es geht! Aber ... and you follow then the sign Kleef that’s the Oranje Single yeah then you follow the sign Kleef

  6. Schon mal gemacht? • HabenSieschon mal versucht, einLexikonderartaufzubereiten, dasssiees in einemProgrammeinsetzen und mitanderenDatenzusammenbringenkönnen? • Am MPI und imDOBESProgramm hat jede(r) einanderesLexikon (Struktur und Attribute, oftmalsist die Strukturauchnurim Kopf). • EinFallbeispieleinesrespektablenLinguisten: • Strukturbeschreibungistvorhanden, abernichtumgesetzt. • ca. einhalbesJahrDiskussionen per Email etc • letztlichHistogrammmit ca. 200 verschiedenenStrukturen • davon 12 ungewollte und nichtkorrekteStrukturen • dannnatürlich script-basierte und manuelleKorrekturen • 3 teurePersonen und 1 Stud.Ass. wareninvolviert Es geht! Aber ...

  7. Schon mal durchlebt? • HabenSieschon mal ca. 5000 Ressourcen (verschiedeneDatentypen, verschiedeneVersionen, Ausschnitte, etc) auf Ihrem Notebook managenmüssen? • ImDOBESProjekt (DokumentationBedrohterSprachen) zumindesteinKollege, der dieseSchallmauerdurchbrochen hat, anderesinddichtdran. • WieandersalsmittelsMetadatenBeschreibungenwerdenSie den Überblickbehalten? • WennschonMetadatendanndochsolche, die andereauchdirektverwendenkönnen. • Ichweiss: Metadatenerzeugen und verwaltenistnichts, was man liebt, aberwieanderswollensie die Wiederverwendbarkeit der Datengarantieren - sogarmanchmalIhrereigenen. Es geht! Aber ...

  8. Sind das überhauptThemen? • Sind Sichtbarkeit, AustauschbarkeitüberhauptThemen? • in vielenFällen (noch) nicht • Beispieleaus der SichteinesNicht-Linguisten: • in DOBESprogrammatisch: die Dokumentationistnichtnurfür den Linguistenselbst - sondernfürandere und mehrereGenerationen, derenWünschewirnichteinmalkennen. • Lexika, Wordnets etc speichernWissenfürviele und werdenimmerSchlüsselfür die Bedeutungserschließungsein. • Programme sindteuer und solltendaherfürvieleeinfachverwendbarsein. • etc etc

  9. Zeit des Umdenkens • scheinen in der LRTGemeinde in einemProzess des Umdenkenszusein • einTeil der Linguistenagierenals “Service Anbieter” fürandere • alleWissenschafts-DisziplinenverwendenSprachressourceninsbesondere die Geisteswissenschaften • wirsolltensie in die Lageversetzen, Ressourcen und Tools selbsttätigzuverwenden und miteinanderzukombinieren • die meistenhabenkeinen Stab von Mitarbeitern, die clevereKonversionen etc ausführenkönnen • eine CLARIN/D-SPIN Infrastruktur muss hieransetzen: Schaffeneinerintegrierten und interoperablenDomäne von Sprachressourcen (Daten und Tools)

  10. Pfeiler der Integration • TypischesZiel: SchaffeneinervirtuellenKollektion und das SuchennacheinfachenMustern • Ingredienten: • persistente “Repositorien” mitstabilenDiensten und ein “offener” Archivierungs Service • persistente und eindeutigeIdentifikatorenfüralleRessourcen und Services damitalleVerweisestabilbleiben • gemeinsameMetadaten-Domänebasierend auf einem (flexiblen) Standard und Standards für den Austausch • Single Identity / Single Sign-On Prinzipbasierend auf Vertrauen • und natürlicheineclevereSuchmaschinebzw. Statistik-Tools, wobeinatürlichimmer die Frageist, ob Datenoder Code transferiertwerdendürfen

  11. Pfeiler der Integration • Ingredienten: • persistente “Repositorien/Archive” CLARIN hat Kriterienfürsolche “neuen Service-Zentren” etabliert in D habensichDFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet eswirdeinQualitätscheckgeben (Data Seal of Approval) eswird Geld kosten • persistente und eindeutigeIdentifikatorenfüralleRessourcen und Services CLARIN bieteteinen Service an (basierend auf einer MPG Entscheidung und RedundanzdurchandereeuropäischeZentren) fürjedes Object und jede Version etc kanneine URL und verschiedeneInformationenerzeugtwerden, und zurückkommteine PID, die man in die Metadateneinträgt die kanndannjederverwenden und siewerdenaufgelöst was heißt persistent: MPG stehtdahinter - reicht das?

  12. Pfeiler der Integration • Ingredienten: • gemeinsameMetadaten-Domäne • gegenwärtigeSichtbarkeitnichtausreichend - gibtkeinenechtenKatalog, keineSystematik und jedeMenge “Gemecker” • Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEI • weg von fixed Schema hinzuflexiblemComponenten Model • semantischeInteroperabilitätdurch die Verwendung von registrierten “Konzepten” ISOcat (ISO 12620), TEI, DC • dh. jederkannseineigenes Schema zusammenstellen • momentanarbeiten “Experten” an den Element-Definitionen • und Entwickler die an der Infrastrukturarbeiten (MPI, DFKI, IDS) • wirsorgendafür, dassalle IMDI/OLAC Investitionengewahrtbleiben • jederkannmitmachen und prüfen, ob allesdrinist (zB. Zeichensprache) • CMDI wirdein Standard in CLARIN ! • arbeiten an einem “Virtual Language Observatory”

  13. Pfeiler der Integration • Ingredienten: • Single Identity / Single Sign-On Prinzip • mitIhrer “Heimat” Identitätmüssensie an all das Herankommen, zudemSieZugangsberechtigunghaben • esistwiebeiSchlüsseln: man möchte am liebstennureinenhaben • wirarbeiten eng mitdemDFNVereinzusammen • wennIhreUni in der DFN AAI (so heisst das) ist, dann gilt das europaweit • IDS/MPI/BBAWnehmen nun an einemerstenPilotprojektzusammenmit NL und Finland teil

  14. Pfeiler der Interoperabilität • typischesZiel: Zusammenstellen von Workflows • Ingredientenfüreinschweranzupackendes Problem: • Vereinbarung “standardisierter” Formatefür die wesentlichenDatentypen (Text-Korpora, annotierteMedien, Lexika, etc) • CLARIN machtInventur von Format “Standards&Best Practices” • Community Best Practices werdennatürlichweiterleben • CLARIN muss Konverterexplizit und offenmachen • man wirdnichtalles (WORD) unterstützenkönnen • offeneRegistraturlinguistischerKonzeptealsReferenz • wolleneinpragmatisches Problem lösen (gemeinsameSuche) • keinersoll seine Konzepteaufgeben!!! • abervielleichtfürvieleKonzepteReferenzenmöglich • CLARIN (zusammenmit ISO) arbeitet an ISOcat

  15. Istesmorgenfertig? • schönwär’s • einsteiniger und nichteinfacherWeg • wennwirjetztabernichtschrittweiseanfangen, wanndenndann? • nichtalles, was icherzählthabe, werdenSieinteressantgefundenhaben, abereinesistklar: die LRT Community ist in einigenPunktenim Moment anderenvoraus

  16. Istmorgenschonetwasfertig? • arbeiten an einerReihe von Dingen • eineReihe von AnforderungsSpezifikationensindfertig • nichteinfachbei 150 Mitgliedern, dh. ca. 500 Personen • gemeinsameMetadatenDomäne 2009 • Basis ist Language Resource and Technology Inventory • Zielist “Virtual Language Observatory” - ersterSchrittmomentan • allesindaufgefordertmitzumachen • ersteallgemeine Service Angebote in 2009 • PID Angebotsteht; erste AAI Domäne in 2009 • arbeitenmitHochdruck an typischen Workflows • hierist D-Spin zunennen • wollenmehrKonvertorenverfügbarmachen • etc

  17. Randbemerkungen • CLARIN/D-SPIN isteineInfrastrukturinitiative - keinForschungsprojekt • esbaut auf existierendenResourcen und Tools auf und will dieseintegrieren • die InfrastrukturPfeilermüssen persistent sein, Wissenschaftlermüssen sich auf Diensteverlassenkönnen • wirsindnureinTeil der ganzenInfrastruktur- Bewegung - vieleDisziplinensindinvolviert • wirbekommenjetzteine Chance - einezweitewird es so schnellnichtgeben • wirwerden von den Hardcore Kollegen etc respektiert

  18. Ende Falls nicht to end in Babylonish scenario nous avons still eenbeten time omschattingente improve. DankefürIhreAufmerksamkeit!

More Related