70 likes | 176 Views
FetchProt. Kristofer Franzén Swedish Institute of Computer Science Centrum för Genomik och Bioinformatik Metamatrix development & consulting AB. Problem. Kunskap om proteiners funktion kan vara opålitlig Få funktioner är experimentellt verifierade
E N D
FetchProt Kristofer Franzén Swedish Institute of Computer Science Centrum för Genomik och Bioinformatik Metamatrix development & consulting AB
Problem • Kunskap om proteiners funktion kan vara opålitlig • Få funktioner är experimentellt verifierade • Baseras i stället ofta på strukturellt lika proteiners funktion • I flera led där det kan bli oklart vad som är verifierat • Kunskapen om experimentellt verifierad funktion finns oftast inte i databaser, men i text • Textmängderna är oöverblickbara
Lösning • Att bygga infrastruktur för hantering och insamling av kunskap om proteiners funktioner direkt från text. • Genom att utveckla och applicera språk-teknologiska metoder för informationsextraktion ur vetenskaplig text från det molekylärbiologiska och biokemiska området. • Och att strukturera denna kunskap och göra den allmänt tillgänglig.
Centrum för Genomik och Bioinformatik vid Karolinska Institutet (CGB) (Björn Ursing, Kwabena J. Sarfo) Databasen ExProt Expertkunskap (molekylärbiologi, bioinformatik) Swedish Institute of Computer Science (SICS) (Kristofer Franzén, Jussi Karlgren) Erfarenheterna från ”Proteinhalt i text” Proteinnamnsigenkännaren Yapex Expertkunskap (språkteknologi, informationsextraktion) Metamatrix (Patrik Hassel, Pär Lannerö) Expertkunskap (infrastruktur, agentprogrammering, databaser) Medverkande och deras roller
ExProt CGB - KI Medline Hämta fulltext-artiklar Hämta aminosyra-sekvenser Fyll på med nya proteiner Sök i bibliografiska data Hitta och extrahera rätt data Utför lingvistisk analys SwissProt Veten- skapliga artiklar Där ute SICS Informations- extraktion Morfo- syntatisk analys