FRaMed
Download
1 / 9

FRaMed Ein medizinisches Textkorpus des Deutschen - PowerPoint PPT Presentation


  • 135 Views
  • Uploaded on

FRaMed Ein medizinisches Textkorpus des Deutschen. Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena. Besonderheiten medizinischer Fachsprache. Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'FRaMed Ein medizinisches Textkorpus des Deutschen' - denzel


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Framed ein medizinisches textkorpus des deutschen

FRaMed

Ein medizinisches Textkorpus des Deutschen

Udo Hahn

JULIE Lab

Friedrich-Schiller-Universität Jena


Besonderheiten medizinischer fachsprache
Besonderheitenmedizinischer Fachsprache

  • Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten

  • Tendenz zu paragrammatischem Sprachgebrauch

  • Schreib- und Interpunktionsfehler

  • Häufige Verwendung von (idiosynkratischen) Abkürzungen und (sehr ambigen) Akronymen

  • Keine kohärente „medizinische“ Fachsprache, sondern textsorten- und subdomänenspezifische Medizinsprachen

  • Experte-Experte-Annahme: verdichteter Jargon

  • Lexikonzentrierung


Besonderheiten medizinischer textkorpora
Besonderheitenmedizinischer Textkorpora

  • Im Allgemeinen nicht öffentlich zugänglich (klinische Dokumente)

    • Sicherung der Anonymität von Patienten

      • AMIA 2006: FIRST SHARED-TASK FOR CHALLENGES IN NATURAL LANGUAGE PROCESSING FOR CLINICAL DATA http://www.bisti.nih.gov/ahm2006/abstracts/L-2.pdf

        http://www2.amia.org/meetings/f06/workshops.asp

      • F=99.75 (best-performing system)

    • Besitzstandswahrung von Klinikchefs


Textsorten in framed wermter hahn lrec 2004
Textsorten in FRaMed(Wermter & Hahn, LREC 2004)

Klinische Texte

Nichtklinische Texte („Manual der Diagnostik und Therapie“, Webportalnetdoktor.de)

IAA3 = 98.4


Tag set stts med
Tag Set STTS-med


Pos tagging experimente hahn wermter pricai 2004
POS-Tagging-Experimente(Hahn & Wermter, PRICAI 2004)

  • Brill Tagger vs. TnT (Brants)

  • STTS vs. STTS-med

  • TnT, nachrichtentrainiert (Default)

    auf FRaMed: 97% acc

  • TnT, FRaMED-trainiert: 98% acc

  • Fazit

    • Nachrichtentrainierter POS-Tagger direkt anwendbar

    • Minimale Genauigkeitssteigerung für med. Tag-Set


Perspektiven
Perspektiven

  • Entitäten-Tagging

    • Krankheiten, Anatomie, Arzneien, Untersuchungsmethoden, …

  • Relationen-Tagging

    • (anatomische) Lokalisation, Behandlungs- und Interventionsroutinen, …

  • JenAge – Altersforschungsschwerpunkt der FSU Jena, Klinikum Jena, diverse Leibniz-Institute


Verf gbarkeit
Verfügbarkeit

  • … wir mussten unsere Tagging-Software im Universitätsklinikum installieren …

  • … und alle Beteiligten mussten sich (wegen fehlender Anonymisierung) strikten Geheimhaltungsklauseln unterwerfen …

  • … und diese Restriktionen werden sich ver-schärfen, je mehr Semantik kodiert werden wird

  •  


Framed ein medizinisches textkorpus des deutschen

FRaMed

Ein medizinisches Textkorpus des Deutschen

Udo Hahn

JULIE Lab

Friedrich-Schiller-Universität Jena

http://www.julielab.de