Thomas fober
This presentation is the property of its rightful owner.
Sponsored Links
1 / 30

Thomas Fober PowerPoint PPT Presentation


  • 82 Views
  • Uploaded on
  • Presentation posted in: General

Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten Informationstechnische Problemfelder und Lösungsansätze. Thomas Fober. Abitur im Jahr 2000, anschließend Zivildienst

Download Presentation

Thomas Fober

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Thomas fober

Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit MedizinproduktenInformationstechnische Problemfelder und Lösungsansätze

Thomas Fober


Thomas fober

  • Abitur im Jahr 2000, anschließend Zivildienst

  • WS 2001/02 – WS 2006/07: Studium der Informatik mit Nebenfach Betriebswirtschaftslehre an der Universität Dortmund

  • seit Mai 2007 wissenschaftlicher Mitarbeiter am Fachbereich Mathematik und Informatik der Philipps-Universität Marburg

  • Promotion in einem interdisziplinären Projekt mit dem Fachbereich Pharmazie: Verfahren zur Analyse von Proteinbindetaschen


Pharmakovigilanz

Pharmakovigilanz

  • Beobachtung von sich auf dem Markt befindlichen Arzneimitteln

  • 01. Oktober 1957 – 27. November 1961: Contergan als (rezeptfreies) Beruhigungs- und Schlafmittel vertrieben

    • hoher Anteil aller beobachteten Schädigungen ungeborenen Lebens im Zusammenhang mit der Einnahme von Contergan

  • weiterhin von hoher Aktualität:

    • Trasylol (erhöhte Sterblichkeit),

    • Prexige(Leberschäden)

    • Acomplia(erhöhtes Selbstmordrisiko)

    • Avandia (erhöhtes Herzinfarktrisiko)


Vorgehensweise zur risikoidentifikation

Vorgehensweise zur Risikoidentifikation

  • Sammeln von MeldungenzuVorkommnissenmitMedizinprodukten

    • systematischeErassungschwierig; enormeAnzahl an Vorkommnissen

  • dieseMeldungenkönnenverrauschtsein und nurwenig Information enthalten

  • Identifikation von Vorkommnissen, die es Wert sindweiterbetrachtetzuwerden


Daten

Daten

CREATE TABLE berichte(hersteller VARCHAR (30), name VARCHAR (50), (...),event VARCHAR (2500));

 Realizierung nicht optimal

Quelle: www.bfarm.de


Probleme i

Probleme (I)

 der Anwenderbericht wird unverarbeitet in der Datenbank abgelegt

  • SELECT event FROM berichteWHERE name = “Aspirin“liefert eine Menge von Anwenderberichten

     Nachverarbeitung des Suchergebnisses

  • SELECT name FROM berichteWHERE event = “starkes Schwindelgefühl“liefert eine leere Menge

     Suche nach Schlüsselwörtern im Anwenderbericht notwendig(contains / like)


Probleme ii

Probleme (II)

  • Verarbeitung von Text in einem post-processing Schritt möglich

  • Suche nach Schlüsselwörtern ebenso möglich

    aber:

  • Anwenderbericht wird mehrfach zurückgegeben  mehrfache Verarbeitung des selben Berichts

  • im umgangssprachlichen Text sind Schlüsselwörter nicht in der Grundform enthalten exakte Suche nach Schlüsselwörtern daher unmöglich / ineffizient

  • Data Mining Verfahren erfordern vektorielle Repräsentation


Thomas fober

Annahme:

Menge der relevanten Schlüsselwörter bekannt


M gliche l sung

Mögliche Lösung

  • Verarbeitung des Nutzerberichts bei Eingang

  • Speicherung relevanter Information in relationaler Datenbank

    CREATE TABLE berichte((...),event_1 DECIMAL(2,2),

    event_2 BOOLEAN,

    (...)

    event_N BOOLEAN);

Quelle: www.bfarm.de


Datenbank

Datenbank


Extraktion relevanter information i

Extraktion relevanter Information (I)

  • gegeben geordnete Mmöglicher Vorkommnisse und Bericht t

  • gibt es einen Index i, so dass ti...ti+m-1 = ev

Nach Medikamenteinnahme trat Bluthochdruck ein.

0 1 0

a

a

b

a

b

a

0

1

2

3

b

b


Nutzerbericht ist umgangssprachlich

Nutzerbericht ist umgangssprachlich

  • Fehlertoleranz notwendig, Betrachtung umschließender Wörter

  • Levenshtein Distanz – wie viele Editieroperationen sind notwendig um Wort a in Wort b zu transformieren

    Kopfschmerz

    |||| |

    Kopfweh

Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat.

0 0 0

Quelle: www.sanego.de

  • Fehler

  • nur als Paar sinnvoll

s = 5 / 11

s = 5 · cM + 6· cMM

Schwindel – schwindelig – Vertigo – Gleichgewichtsstörung


Transformation i

Transformation (I)

  • Stemming – automatische Zurückführung eines Wortes auf seinen Wortstamm; z.B.

    Sehstörungen  Sehstörung

    Porter-Stemmer-Algorithmus: Zählen von Vokal-Konsonant Kombinationen und Anwendung vordefinierter Regeln

  • Lemmatization – automatische Zurückführung eines Wortes auf seine Zitierform (NLP)

    Lammatizer.org (open source Projekt): Vorteil (?) gegenüber Stemming, da vollständige morphologische Analyse durchgeführt wird

Schwindel – schwindelig – Vertigo – Gleichgewichtsstörung


Transformation ii

Transformation (II)

  • Dictonary – zur Übersetzung von Fachtermini und zur Begriffsklärung; z.B.

    Schwindel  Vertigo

    Schwindel: Gleichgewichtsstörung Irreführung

  • Parsing – zum Auffinden der Beziehung zwischen Wörtern in einem Satz; z.B.

    starke Kopfschmerzen

    trockener Husten

    brennende Augen


Extraktion relevanter information

Extraktion relevanter Information

Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat.

Seit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden mit [brenenden Augen] [Verstärkte Probleme mit dem Bewegungsapparat]

Parsing

Quelle: www.sanego.de

Filter

Medikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden [brenenden Augen] [Verstärkte Probleme] Bewegungsapparat

Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstörung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat

Grundform

Dictonaryrelev. Wörter

Schwindel Reizhusten Atemproblem Bronchitis Sehstörung (...)


Verwendung der datenbank

Verwendung der Datenbank

  • ein Arzneimittel / Wirkstoff / Charge kommt mehrfach in der DB vor

  • Ziel ist es potentielle Gefahren eines Arzneimittels zu identifizieren

  • weist ein Nutzerbericht eines Arzneimittels eine Menge an Gefährdungen aus, melde Arzneimittel als Problem

     Nein!

    • ein negativer Bericht unter sehr vielen Positiven deutet nicht auf ein Problem mit einem Arzneimittel hin

  • Kombination aller Zeilen die ein bestimmtes Arzneimittel repräsentieren  Wahrscheinlichkeiten für bestimmte Vorkommnisse


Bestimmung von wahrscheinlichkeiten

Bestimmung von Wahrscheinlichkeiten

SELECT SUM(ev_i) AS sum1 FROM berichte

SELECT SUM(ev_1, ..., ev_N) AS sum2 FROM berichte

SELECT SUM(ev_i) AS sum3 FROM berichteWHERE name = drug_j

SELECT COUNT(*) AS sum4FROM berichteWHERE name = drug_j


Identifikation von risiken

Identifikation von Risiken

  • (relatives Risiko)

  • (proportionales Verhältnis)

  • (Quotenverhältnis)

     Beziehung zwischen Nebenwirkung und Arzneimittel


Beispiel

Beispiel


Beispiel1

Beispiel

  • Arzneimittel A verursacht bei 90% der Patienten Vorkommnis a

  • 10 % der Patienten die A nicht einnehmen berichten ebenfalls über a

  • A wird in i.d.R. in Kombination mit B verabreicht:

    • 90% der Patienten die A einnehmen nehmen auch B ein

    • 1% von nicht A einnehmenden Patienten nehmen B ein

  • es wurde nie beobachtet, dass B das Vorkommnis a verursacht

     Simpson Paradoxon


Beispiel2

Beispiel

  • A und B sind binäre Variablen, A = 1, wenn A eingenommen wurde, 0 sonst

  • Anwendung der Maximum-LikelihoodMethode zu Bestimmung der  und (erwartete Veränderung, wenn A (B) von 0 auf 1 gesetzt wird und B (A) konstant gehalten wird)


Klassifikation

Klassifikation

  • Trainingsdaten (z.B. akute reversible Störung vs. reversible aber signifikante Störung)

     überwachtes Lernen


Clustering

Clustering

  • Trainingsdaten nicht benötigt, Anzahl der Cluster notwendig

     unüberwachtes Lernen


Kategorisierung des gef hrdungsgrades

Kategorisierung des Gefährdungsgrades

  • akute reversible Störung (z.B. zeitlich begrenztes brennen der Augen, Müdigkeit, ...)

  • reversible aber signifikante Störung (z.B. Arbeitsunfähigkeit)

  • reversibler lebensbedrohlicher Zustand; medizinischer Notfall

  • irreversible Schädigung

  • Tod


Visualisierung

Visualisierung

  • Multidimensionale Skalierung

  • Hauptkomponentenanalyse (PCA)


Thomas fober

Annahme:

Menge der relevanten Schlüsselwörter nicht bekannt


M gliche l sung1

Mögliche Lösung

  • Verarbeitung aller Nutzerberichte in einem Schritt

  • Extraktion relevanter Vorkommnisse

  • Abbildung auf Feature Vektor

    Bag-of-words Ansatz

    • Informationsverlust

    • kein Bias

Quelle: www.bfarm.de


Extraktion von schl sselw rtern

Extraktion von Schlüsselwörtern

Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstörungen verbunden mit brenenden Augen. Verstärkte Probleme mit dem Bewegungsapparat.

Seit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden mit [brenenden Augen] [Verstärkte Probleme mit dem Bewegungsapparat]

Parsing

Quelle: www.sanego.de

Filter

Medikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstörungen] verbunden [brenenden Augen] [Verstärkte Probleme] Bewegungsapparat

Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstörung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat

Grundform

Dictonary

E (relevante Wörter)

Dauerschwindel [Reizhusten] [massiv Atemproblem] [schwer Bronchitis] Sehstörung [brennend Auge] Bewegungsapparat

Selektion


Zusammenfassung

Zusammenfassung

  • unstrukturierte Daten können nur schlecht mit klassischen informationstechnischen Verfahren verarbeitet werden

  • im Fall von unformatierten Texten ist die Abbildung auf vektorielle Repräsentation möglich (NLP / approximative Suche)

  • Verarbeitung der so extrahierten Information kann ebenso zu Problemen führen

    • Simpson Paradoxon

    • Effizienz der Verfahren

  • Data Mining Verfahren erlauben es Information aus sehr großen Datenbanken zu extrahieren


Thomas fober

Danke für Ihre Aufmerksamkeit


  • Login