1 / 33

Deutsche Sprachressourcen Infrastruktur (D-SPIN)

Deutsche Sprachressourcen Infrastruktur (D-SPIN). Prof. Dr. Erhard Hinrichs D-SPIN Koordinator Universität Tübingen. ESFRI.

moriah
Download Presentation

Deutsche Sprachressourcen Infrastruktur (D-SPIN)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Deutsche Sprachressourcen Infrastruktur (D-SPIN) Prof. Dr. Erhard Hinrichs D-SPIN Koordinator Universität Tübingen

  2. ESFRI „The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location.“

  3. ESFRI Roadmap • Preparatory Phase (2008-2010) • Ko-Finanzierung durch EU und nationale Mittel • Construction and Exploitation Phase (2011-2020) • Primäre Förderung aus nationalen Mitteln • Phase I (2011-2015) • Phase 2 (2016-2020)

  4. Arbeitsgruppen ESFRI Roadmap Projects Im Bereich der Geistes- und Sozialwissenschaften: CLARIN (Common LAnguage Resources and Technology INfrastructure); www.clarin.eu DARIAH (DigitAl Research Infrastructure for the Arts and Humanities); www.dariah.eu CESSDA (Council of European Social Science Data Archives); www.nsd.uib.no/cessda

  5. Gliederung Clarin Total number of members: 151 Number of countries involved: 32

  6. D-SPIN Projektpartner • Berlin-Brandenburgische Akademie der Wissenschaften • Deutsches Forschungszentrum für Künstliche Intelligenz Saarbrücken GmbH (DFKI) • Institut für Deutsche Sprache (IDS) Mannheim • Max-Planck-Institut für Psycholinguistik Nijmegen • Eberhard-Karls Universität Tübingen; Computerlinguistik • Justus-Liebig-Universität Gießen; Ang. Sprachw. und CL • Universität Frankfurt; Vergleichende Sprachwissenschaft • Universität Leipzig, Institut für Informatik • Universität Stuttgart, Inst. für masch. Sprachverarbeitung

  7. Arbeitsgruppen D-SPIN Arbeitspakete • AP 1: Projekt Management (Uni Tübingen, MPI Nijmegen, IDS Mannheim, BBAW Berlin) • AP 2: Etablierung der technischen Infrastruktur (MPI Nijmegen, Uni Tübingen, IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart) • AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW Berlin, Uni Frankfurt, Uni Gießen) • AP 4: Verbindung mit nationalen und europäischen Initiativen (MPI Nijmegen, Uni Tübingen)

  8. D-SPIN Arbeitspakete • AP 5: Anpassung und Integration von Ressourcen und Tools (Uni Tübingen, MPI Nijmegen, IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart) • AP 6: Training und Ausbildung (Uni Gießen, Uni Tübingen, Uni Frankfurt) • AP 7: Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle (IDS Mannheim) • AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene (IDS Mannheim)

  9. Arbeitsgruppen AP1 - Management • Koordination der Projektarbeiten mit Aktivitäten des CLARIN-Projekts • Durchführung der regelmäßigen Treffen des Leitungsausschusses, des Beirats, des Plenums und der Arbeitsgruppen • Ansprechpartner: • Prof. Dr. Erhard Hinrichs (wissenschaftlicher Leiter) • Kathrin Beck (Projektkoordinatorin, kbeck@sfs.uni-tuebingen.de)

  10. Arbeitsgruppen Mitglieder des D-SPIN Beirats • Helge Kahler (BMBF) • Axel Horstmann (Volkswagen Stiftung) • Christiane Fellbaum (Princeton University) • Bernhard Neumair (GWDG, Göttingen) • Neil Freistat (Maryland Institute for Technology in the Humanities) • Paul Doorenbosch (Koninklijke Bibliotheek NL) • Bente Maegaard (University of Copenhagen; CLARIN Liaison)

  11. Arbeitsgruppen AP 2: Technische Infrastruktur • Etablierung der technischen Infrastruktur • Infrastruktur • Service-Zentren neuen Typs • Sprach-Ressourcen-Föderation • Registraturen • Web-Services • Basis-Services und Applikationen

  12. Arbeitsgruppen AP 3: Geisteswissenschaften • Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender • Welchen Bedarf an Sprachressourcen gibt es in den Geisteswissenschaften? • Welche Anforderungen muss eine Forschungsinfrastruktur für die Geisteswissenschaften erfüllen?

  13. Arbeitsgruppen AP 4: Liaison • Verbindung mit nationalen und europäischen Initiativen • Koordination mit anderen europäischen und nationalen Infrastruktur-Projekten wie DARIAH, FLaReNet (EU-Projekte); eAQUA, TextGrid (BMBF-Projekte); Dobes (Volkswagen-Stiftung); • Entwicklung einer gemeinsamen Roadmap für Infrastrukturen und Standards im Bereich geisteswissenschaftlicher Ressourcen

  14. AP 5: Integration • Anpassung und Integration von Ressourcen und Tools • Standardisierung und Integration deutscher Ressourcen der verschiedenen Ressourcentypen • Anreicherung der Ressourcen mit CLARIN-Metadaten • Festlegung der Schnittstellen zwischen Daten undWerkzeugen • Definition und Implementation von Webservices

  15. AP 6: Training und Ausbildung • Entwicklung von Lehrmaterialien und Kurse • Forscher mit den Möglichkeiten, die Sprachressourcen für die empirische Forschung bieten, vertraut machen • die verfügbaren Typen von sprachlichen Ressourcen bekannt machen und den Zugriff auf diese vermitteln • anhand von Beispielen aus der Praxis das Potential von Sprachressourcen darstellen • Sommerschule für Nachwuchswissenschaftler und Dozentenworkshop, 2010 in Gießen

  16. AP 7: Recht und Ethik • Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle

  17. AP 8: Nachhaltigkeit • Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene

  18. Webservices • Webservices zur Erschließung linguistischer Ressourcen • Verteilte Architektur (z.Z. Stuttgart, Tübingen) • Standardisierte Web 2.0 Technologien • Standardisierte Metadaten beschreiben Tools und Daten • Entwicklung eines gemeinsamen Datenformats (Stuttgart, Leipzig) • Verkettung der einzelnen Services mittels Toolchain • Webservice-Demonstrationen am Nachmittag

  19. Webservices In D-Spin schon verfügbare Webservices

  20. Webservices am IMS • Trainierbarer Tokenizer (Parameter für DE, EN, FR, IT) • TreeTagger (Tagger und Lemmatizer; Parameter für DE, EN, FR, IT) • Morphologiesystem SMOR • Parser BitPar (Parameter für DE, EN) • Dependenzparser FSPAR (DE) • Paketlösung zur Extraktion von signikanten Wortpaaren aus geparstem Text auf Basis FSPAR (DE) • UCS toolkit zur Berechnung von Wortpaar-Assoziationen (sprachunabhängig)

  21. GermaNet Web Applikation GermaNet: Ein semantisches Wortnetz des Deutschen GermaNet gruppiert Wörter desselben Konzepts und zeigt Relationen zwischen diesen Konzepten auf: Auto  Automobil, Kraftfahrzeug, Wagen, Kraftwagen

  22. D-Spin Tool Chainer • Verkettung von Webservices: Der D-Spin Tool Chainer • Die einzelnen Webservices bauen aufeinander auf und können in eine logische Kette geschaltet werden • Einfacher Text wird von Webservice zu Webservice weitergereicht und mit linguistischen Informationen angereichert

  23. Einbeziehen weiterer Partner • Einbeziehen weiterer Partner • IDS Mannheim • BBAW Berlin

  24. Webservices • Peter Wittenburg: Metadaten und technische Infrastruktur von D-Spin

  25. Vielen Dank für Ihre Aufmerksamkeit!

  26. Bisherige Ergebnisse • AP 1: Management • Durchführung von Projekttreffen u.a. in Saarbrücken, Berlin, Frankfurt • Teilnahme an CLARIN-Treffen • Konstitution des wissenschaftlichen Beirats • Ausarbeiten der Verträge, insbesondere Kooperationsvertrag und FE-Verträge • Einrichtung eines Wikis für die interne Projektkoordination 06.05.09

  27. Bisherige Ergebnisse • AP 2: technische Infrastruktur • Erstellung von Anforderungs-Spezifikations-Dokumenten und Short Guides • Aufstellung von Zentren • Föderationen und PIDs • Metadaten (siehe Vortrag Peter Wittenburg) • Entwicklung von Webservices 06.05.09

  28. Bisherige Ergebnisse • AP 3: Ressourcen- und Anwenderplanung im Hinblick auf geisteswissenschaftliche Anwender • Uni Gießen: Fallstudie zum Einsatz von Sprachressourcen im Computer-Assisted Language Learning (CALL) • BBAW: Erstellung eines Fragebogens zur Ermittlung der Anforderungen von Geistes- und Sozialwissenschaftlern an Sprachressourcen und Services

  29. Bisherige Ergebnisse • AP 4: Verbindung mit nationalen und europäischen Initiativen • Interaktionen mit CLARIN • Interaktionen mit TextGrid • Interaktionen mit DEISA II bzgl. Langzeitarchivierung und Auslagerung von rechenintensiven Prozessen auf universitäre Rechenzentren • Interaktionen mit dem DFN-Verein • Gespräche zum Schwerpunktprogramm zu eHumanities • Interaktionen mit FlareNet • Mitgliedschaft bei ISO TC37/SC4 (Management of Language Resources) 06.05.09

  30. Bisherige Ergebnisse • AP 5: Anpassung und Integration der Ressourcen und Tools • Implementation von Webservices (ISOcat, LMF-basierte Lexika, Metadaten) • Erstellung von Metadaten • Formatanpassungen von Ressourcen für die Anbindung an Webservices • Integration der Webservices in einen Workflow • Entwicklung einer prototypischen Infrastruktur • Z.B. die Frankfurter TITUS-Datenbank: Umwandlung in eine standardkonforme Struktur, Konvertierung in XML, Erstellung von sprachspezifischen Teilkorpusübersichten 06.05.09

  31. Bisherige Ergebnisse • AP 6: Training und Ausbildung • Planung eines inhaltlichen und didaktischen Konzepts der Ausbildungsmodule • Anlegen einer Testplattform und Integration der ersten Module (moodle, Uni Frankfurt) • Standardkonforme Bereitstellung existierender Lehrmaterialien • Planung erster D-SPIN-bezogener Lehrveranstaltungen • Durchführung einer lehrbezogenen D-SPIN-Umfrage • Sommerschule für Nachwuchswissenschaftler und Dozentenworkshop, 2010 in Gießen 06.05.09

  32. Bisherige Ergebnisse • AP 7: Urheberrecht und ethische Fragen • Zusammenarbeit mit CLARIN • Erstellungen von Muster-Lizenzvereinbarungen 06.05.09

  33. Bisherige Ergebnisse • AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene • Enge Kooperation mit CLARIN • Planung langfristige Perspektiven für eine deutsche Sprachressourceninfrastruktur 06.05.09

More Related