420 likes | 723 Views
Entrepôt de données biomédicales. Marc Cuggia – PUPH - CHU de Rennes Nicolas Garcelon – Ingénieur - Institut Imagine - P aris. Contexte. Données du SIH, bases de données recherches Gisement Besoins de réutilisation des données patient pour
E N D
Entrepôt de données biomédicales Marc Cuggia – PUPH - CHU de Rennes Nicolas Garcelon – Ingénieur - Institut Imagine - Paris
Contexte • Données du SIH, bases de données recherches Gisement • Besoins de réutilisation des données patient pour • Le pilotage médico-économique : analyse de l’activité • L’évaluation des pratiques: Etude sur la qualité de la prise en charge des patients • Les vigilances : détection des EI médicamenteux, détections des infections nosocomiales • La recherche clinique : inclusion dans des essais • La recherche Epidémiologique: constitution de cohorte • … SECONDARY USE OF CLINICAL DATA Présentation de Nicolas Garcelon pour IMAGINE - 12 janvier 2012
Contexte • Multiplication des sources d’information • SIH • Bases de données spécifiques / recherches • Malgré une volonté de coder les informations, les utilisateurs favorisent une saisie textuelle libre. • Le codage des données : +++ qualité de l’information ---- exhaustivité de l’information
L’objectif de l’entrepôt de données • Développer un outil global de recherche d’information pour la recherche biomédicale • Gérer le texte libre et les données codées • Proposer des outils de sélection de patients ou de cohortes
Data mining En entrée Registre Retour spécifiquedans les bases de production Entrepôt de données Export régulier des données datamart datamart • Bases de donnéeshétérogènes • Contenu • Traitement • Population concernée (humains, animaux) • Volumétrie • Système • Accès (interne, national, international) • Sécurité • Standardisation des données • Un seul point d’entrée • Outilsd’analyse (recherche, calcul de similarité, clustering) • Securité • Facilité la coopération
ARCHITECTURE LIKE Matériel Retrievial information system • Demographics • Cancer MDM reports • DRG (diag. & procedures) • Pathology reports • Radiology reports • Clinical reports • Emergency reports • Lab test(ICD, NCIT, ADICAP, CCAM…) • Omic results Structuredquery Full textquery Search documents Indexing (Oracle Text) Index metadata EHRs Document and data repository stored in a star model database Clinical reports Semanticenrichment of free text document Load Transform Extract ETL
Aspect technique de Roogle • Outil web • Langages : PHP, Ajax • Base de données : Oracle • Module Oracle Text • Module Oracle Geolocation • ETL : scripts perl / Talend • Terminologies: UMLS metathesaurus
Méthodes de Traitement Automatique du Langage sur les comptes rendus • Extraction automatique des périphrasesnégatives • Détectionautomatique des données semi-structurées : histoire du patient, diagnostics, résultats etc. • Extraction automatique des concepts médicaux: enrichissementsémantique des documents par les synonymes et les parents hiérarchiques des concepts
Miss Smith has a history of coronaryarterydisease and an episode of in in 2009 heartfailure parsed with a French concepts extractor CUIs (UMLS) Semantic expansion for annotation (synonyms & fathers) Cardiac Failure, Myocardial Failure, Heart Failure, Left-Sided, Heart Failure, Left Sided, Left-Sided Heart Failure,Left Sided Heart Failure, Heart Failure, Right-Sided, Congestive Heart Failure, Heart Decompensation Fathers : Diseases > Cardiovascular Diseases >Heart Diseases Metadata annotation Give me documents talking about Heartdecompensation
L’entrepôt de donnéespermet • Des études de faisabilité : ongletstatistique • Nombre de patients éligibles pour un essaiclinique • Nombre de patients éligibles pour uneétude retrospective • La géolocalisation des patients : onglet Map • Le pré-screening pour constituer des cohortes de patients : ongletrésultatdétaillé • Le clustering de patient : àpartird’unecohorte, l’utilisateurpeutautomatiquementrécupérer des patients similairesàcettecohorte
Le moteur de recherche • Critèredémographique : âge, sexe etc. • Requêtes full texte: Expression libre, utilisation d’opérateursbooléens (la requête utilise aussil’enrichissementsémantique et la notion de périphrasenégative) • Les requêtesstructurées: • CIM10, résultatsbiologiques, génétiques, concepts • ainsique la notion d’attribut : diagnostic principal, type de mutation génétique, interval de valeur, valeur x foissupérieurà la normal etc. • Pour chaque sous requête, l’utilisateurpeutspécifier: • Si c’est un critèred’inclusionoud’exclusion • Un critèretemporel entre 2 sous reqûetes : IRM 1 moisavantl’opération • Pour chaque sous requête, le moteuraffiche en direct le nombre de patients retrouvés
Visualisation d’un patient • Tous les documents du patient • Timelinedu patient • Moteur de recherche sur les documents du patient • Journal d’accès aux données du patient
Exploitation de l’entrepôt • Epidémiologie : Alimentation du registre des malformations périnatales en Bretagne • Recherche clinique : inclusion dans des essais de cancer de la prostate • EPP : Evaluation de la stratégie de surveillance des cancers colorectaux
Exploitation de l’entrepôt • Vigilance : • Détection des EI en pharmacovigilance • Détection des infections nosocomiales • Médico-économique : Repérage de l’activité (Robots chirurgicaux) • Organisation des soins: modélisation des trajectoires des personnes agés aux urgences
Intégration des données Service / Equipe Imagine Stockage de l’identité du patient pour empêcher la recopie de ses données dans l’entrepôt Oppositions Opposition Base de données Base de données Base de données Entrepôt de données Types de données Patient Non opposition Biologie Clinique Imagerie Anapath PMSI … ✔ Consentement Recopie des données autorisées Génétique Médecin ou chercheur responsable Consentement Et autorisation Autorisation pour son service ou sa base
Les droits d’accès : Cas d’usage par défaut Interface Moteur de recherche Requêtes Service / Equipe Imagine Onglet statistiques Graphiques de répartition par source, données démographiques etc. Sur les données des patients dans le service ou la base de l’utilisateur Entrepôt de données Médecin ou chercheur Onglet détaillé visualisation Affichage des documents détaillés désanonymisés Sur tout l’entrepôt de données Onglet patients hors périmètre Nombre de patients par service ou base en dehors du périmètre de l’utilisateur Envoie de la liste des patients Service / Equipe Imagine Demande de la liste des patients Médecin ou chercheur responsable
Les droits d’accès : Cas d’usage étendu Interface étude étendue Autorisation pour : Un périmètre, une période, des sources, un datamart etc. Regroupement collaboratif Moteur de recherche Service / Equipe Imagine Service / Equipe Imagine Service / Equipe Imagine Requêtes Datamart : diabète Entrepôt de données Service / Equipe Imagine Onglet statistiques Visualisation Médecin ou chercheur Graphiques de répartition par source, données démographiques etc. ARC Onglet détaillé Affichage des documents détaillés anonymisés ou désanonymisés suivant l’étude Commission entrepôt de données
Conclusion • En production à Rennes : + de 700 000 patients • En cours d’installation à Brest • En cours d’installation à Imagine / Necker • Développement en cours de l’interrogation multi-sites : Pour les centres équipés de Roogle et souhaitant être interrogeable, l’onglet statistique affichera le nombre de patients éligibles dans chacun des centres. • En cours de réponse à l’appel d’offre UNICANCER