1 / 9

FRaMed Ein medizinisches Textkorpus des Deutschen

FRaMed Ein medizinisches Textkorpus des Deutschen. Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena. Besonderheiten medizinischer Fachsprache. Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten

denzel
Download Presentation

FRaMed Ein medizinisches Textkorpus des Deutschen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. FRaMed Ein medizinisches Textkorpus des Deutschen Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena

  2. Besonderheitenmedizinischer Fachsprache • Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten • Tendenz zu paragrammatischem Sprachgebrauch • Schreib- und Interpunktionsfehler • Häufige Verwendung von (idiosynkratischen) Abkürzungen und (sehr ambigen) Akronymen • Keine kohärente „medizinische“ Fachsprache, sondern textsorten- und subdomänenspezifische Medizinsprachen • Experte-Experte-Annahme: verdichteter Jargon • Lexikonzentrierung

  3. Besonderheitenmedizinischer Textkorpora • Im Allgemeinen nicht öffentlich zugänglich (klinische Dokumente) • Sicherung der Anonymität von Patienten • AMIA 2006: FIRST SHARED-TASK FOR CHALLENGES IN NATURAL LANGUAGE PROCESSING FOR CLINICAL DATA http://www.bisti.nih.gov/ahm2006/abstracts/L-2.pdf http://www2.amia.org/meetings/f06/workshops.asp • F=99.75 (best-performing system) • Besitzstandswahrung von Klinikchefs

  4. Textsorten in FRaMed(Wermter & Hahn, LREC 2004) Klinische Texte Nichtklinische Texte („Manual der Diagnostik und Therapie“, Webportalnetdoktor.de) IAA3 = 98.4

  5. Tag Set STTS-med

  6. POS-Tagging-Experimente(Hahn & Wermter, PRICAI 2004) • Brill Tagger vs. TnT (Brants) • STTS vs. STTS-med • TnT, nachrichtentrainiert (Default) auf FRaMed: 97% acc • TnT, FRaMED-trainiert: 98% acc • Fazit • Nachrichtentrainierter POS-Tagger direkt anwendbar • Minimale Genauigkeitssteigerung für med. Tag-Set

  7. Perspektiven • Entitäten-Tagging • Krankheiten, Anatomie, Arzneien, Untersuchungsmethoden, … • Relationen-Tagging • (anatomische) Lokalisation, Behandlungs- und Interventionsroutinen, … • JenAge – Altersforschungsschwerpunkt der FSU Jena, Klinikum Jena, diverse Leibniz-Institute

  8. Verfügbarkeit •  • … wir mussten unsere Tagging-Software im Universitätsklinikum installieren … • … und alle Beteiligten mussten sich (wegen fehlender Anonymisierung) strikten Geheimhaltungsklauseln unterwerfen … •  • … und diese Restriktionen werden sich ver-schärfen, je mehr Semantik kodiert werden wird •  

  9. FRaMed Ein medizinisches Textkorpus des Deutschen Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena http://www.julielab.de

More Related