170 likes | 294 Views
Chris Bielow bielow@inf.fu-berlin.de. On the Power of Profiles for Transcription Factor Binding Site Detection. Sven Rahmann* Tobias Müller † Martin Vingron ‡ * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and
E N D
Chris Bielow bielow@inf.fu-berlin.de On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller† Martin Vingron‡ * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin † University of Würzburg ‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics
Gliederung • Profile • Regularisierung des Profils • Profil Score Matrix • Verteilung der Scores • Fehlerabschätzungen • Qualität eines Profils • Profil-Qualität TRANSFAC
Profile s1 ACTGA s2 AGTGA s3 CGTGC N Anzahl d. Sequenzen L Länge d. Sequenzen Multiples Alignment Countmatrix C Profil Pu Regularisiertes Profil P ??
Große Datenmenge Kaum Veränderung Kleine Datenmenge Generalisierung (!Overfitting) Zero-Counts vermeiden („nothing is impossible“) Regularisierung des Profils Datenmenge
Beispiel s1 ACTGA s2 AGTGA s3 CGTGC Regularisierung des Profils • Positionsabhängig • Regularisierende Verteilung • Berechung der neuen Zeile: Beispiel:
ACGTTGCATGGTCAATGC gleitendes Fenster Hintergrundmodell: Signal(TFBS)? Ja Nein Beispiel Profil Score Matrix • bisher: nur Signaldaten (Profil) • jetzt zusätzlich: Hintergrundmodell Score-Matrix S mit Score für ein Fenster W:
Verteilung der Scores • „high quality“ Profil • „low quality“ Profil
Fehlerabschätzungen • W‘keit für Fensterfehler (Window Error) (Typ I) • W‘keit für Sequenzfehler (Sequence Error) (Typ I) • W‘keit für Fensterfehler (Typ II) • W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) • W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t hat [FN]
Qualität eines Profils • „Wie gut unterscheidet sich das Profil vom Hintergrund?“ • Qualitätsmaß (hohe Werte ≈ gute Trennung) • QH - Maß für Informationsgehalt • Qsens - Sensitivität (TP Erkennung) • Qsel - Selektivität (FP Unterdrückung) • Qbal - Balance zwischen FP & FN • Profil P • Hintergrundverteilung π • Sequenzlänge n • #Signale m • Sequenzfehlerw‘keit αn(t) Typ I (FP) • Sequenzlänge n • # Signale m • W‘keit βm(t) (FN) • Sequenzlänge n • #Signale m • Gewicht c (αn zu βm) Typischerweise: n = 500 m = 1
Profil-Qualität TRANSFAC • 623 Countmatrizen • Regularisiertes Profil • Annahme von drei verschiedenen Hintergrundmodellen • AT-reich • uniform • GC-reich • Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen • Scoreverteilung berechnen • Qualitätsmaße bestimmen
Profil-Qualität TRANSFAC Maximal 5% FN Wie gut werden echte Signale erkannt? uniform Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile GC-reich AT-reich
Profil-Qualität TRANSFAC Power of Profiles Detection power: 95% Wie gut werden FP unterdrückt? uniform Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile GC-reich AT-reich
Profil-Qualität TRANSFAC • Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05 • über 80% sind zu schwach (viele FN)
Verbesserungen • Suche in langen Sequenzen • Lsg: • verwandte Genome (Suchraum reduzieren) • Profile Clustern • Abhängigkeit vom Hintergrundmodell • Lsg: Modell an Sequenz anpassen • Verbesserung (?) durch höhere Ordnung
ENDE Danke für die Aufmerksamkeit