1 / 21

Implementacija BLAST algoritma pomoću Hadoop MapReduce -a

Univerzitet u Beogradu Elektrotehnički fakultet. DIPLOMSKI RAD. Implementacija BLAST algoritma pomoću Hadoop MapReduce -a. Student : Siniša Ivković 07/0301 sinisa.ivkovic@gmail.com. Mentor: Prof. Veljko Milutinovi ć. Uvod. - P oravnavanje sekvenci.

feryal
Download Presentation

Implementacija BLAST algoritma pomoću Hadoop MapReduce -a

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Univerzitet u Beogradu Elektrotehnički fakultet DIPLOMSKI RAD Implementacija BLAST algoritmapomoćuHadoopMapReduce-a Student: Siniša Ivković 07/0301 sinisa.ivkovic@gmail.com Mentor: Prof. Veljko Milutinović

  2. Uvod -Poravnavanje sekvenci • Način raspoređivanja sekvenci DNK, RNK ili proteinaradi identifikacije sličnih regiona, koji mogu biti posledica: • funkcionih • strukturnih • evolucionih odnosa između sekvenci Siniša Ivković

  3. Uvod -Kako da znamo da su dva gena (ili njihovi delovi), koji se često nalaze u različitim organizmima, u stvari dve verzije istog gena? Sličnost!

  4. Uvod • Postoji niz algoritama koji rešavaju problematiku poravnavanja sekvenci i koji garantuju najbolja rešenja problema • Porastom količine podataka koje je potrebno obraditi brzina izvršavanja ovih algoritama postaje neprihvatljiva • Zbog toga se moramo okrenuti heurističkim metodama rešavanja problema - BLAST

  5. BLAST - Basic Local Alignment Search Tool • Algoritam za brzo lokalno poravnavanje sekvenci • Efikasnost BLAST-a leži u tome što on teži dau što kraćem vremenu pronađe regione visoke sličnosti, ne pokušavajući da obavezno pronađe i proveri sva lokalna poravnanja

  6. Matrica zamene • Krucijalni aspekt kod poravnavanja sekvenci jesteosmisliti jednostavnu funkciju bodovanja, kako bismo definisali i pronalazili najbolja poravnanja • Pogodan način za predstavljanje funkcije bodovanja jeste matrica, koju nazivamomatricom zamene • PAM • BLOSUM

  7. BLAST - Algoritam • Kreiramo listu svih reči od k-simbola koje se nalaze u sekvencikoju tražimo • Ukoliko uzmemo da je k=3, pravimo listu svih reči dužine 3 koje se nalaze u sekvenci dok ne dođemo do poslednjeg slova

  8. BLAST - Algoritam • Kreiramo listu mogućih sličnih reči • Koristeći matricu zamene, upoređujemo svaku od reči iz liste kreirane u tački 1 sa svim mogućim rečima • Vrednost praga (threshold) nam služi da bismo smanjili broj ovih reči koje ćemo tražiti u bazi – ulistu mogućih sličnih reči idu samo one čija je vrednost iznad vrednosti praga PQG PEG PQA Threshold = 13 15 12

  9. BLAST - Algoritam • Pretražujemo bazu podataka za sve reči iz kreirane liste • Kako bismo ubrzali pretragu listu, reči je korisno organizovati na što optimalniji način

  10. BLAST - Algoritam • Proširiti deo sekvence gde je pronađen tačan pogodak kako bi se dobio niz znakova što veće vrednosti • Proširuje se u oba smeraod pozicije gde je pronađena reč dok god ukupna vrednost poravnanja ne počne da opada

  11. BLAST - Algoritam • Pravimo listu svih poravnanja čija je vrednost dovoljno velika za razmatranje • U listu ubacujemo samo ona poravnanja čija je vrednost viša od vrednosti odsecanja (cutoff) • Procena značaja dobijenih poravnanja • Dobijeni rezultat upoređujemo sa rezultatom dobijenim od slučajnih sekvenci istog tipa

  12. Paralelni BLAST • Većina bioinformatičkih algoritama su dizajnirani kaosekvencijalni • Sama priroda bioinformatičke obrade • Brzina širenja znanja u biologiji uzrokuje stalno pojavljivanje novih koncepata, ali i značajne promene već poznatih - Opadanje cene sekvenciranja genoma zahteva povećanje brzine izvršavanja ovih algoritama • Implementacije Paralelnog BLASTA • PThread • MPI

  13. ETF Hadoop BLAST • Big Data – skup podataka toliko veliki da postaje teško raditi sa njim primenom trenutno dostupnih baza podataka • Paralelizam – delimo jedan veliki posao na veći broj manjih poslova, koji će se izvršavati konkurentno • komunikacija i sinhronizacija između procesa • otkaz hardvera • MapReduce – programerski model oslobađa programere tereta razmišljanja oko problema otkaza računara i problemasinhronizacije • Apache Hadoop – predstavlja besplatnu implementaciju MapReduce paradigme

  14. MapReduce SORT MAP VALUE VALUE VALUE REDUCE VALUE MAP VALUE REDUCE VALUE VALUE MAP VALUE

  15. ETF Hadoop BLAST - Implementacija {db3} {q1} {db2} {db3} {db1} {q1} {db1} {q1} TRAŽENA SEKVENCA {q1} {db2} {db1} {db2} {db2} {db3} {db3} {db1} {db1} {db2} {db3} REDUCE REDUCE MAP MAP MAP {hit1} {hit3} {hit1} {hit3} {hit5} {hit6} {hit2} {hit4} {hit6}

  16. ETF Hadoop BLAST - Simulacija • Za simulaciju rada programa ETF Hadoop BLAST korišćene su sekvence dostupne na sajtu http://www.ensembl.org/ • Ulazna sekvenca - >GENSCAN00000000013 pep:genscan chromosome:GRCh37:18:4755977:4807982:1 • Baza podataka – 20 sekvenci • wordSize = 3 • threshold = 10 • cutoff = 23

  17. ETF Hadoop BLAST - Simulacija >GENSCAN00000000013 pep:genscan chromosome:GRCh37:18:4755977:4807982:1 transcript:GENSCAN00000000013 transcript_biotype:protein_coding TANTGLLAVKVEVIILVSLTHAQLSRAGQHAGCTTCLQDECAVAAGEEEETQQGELADVIYPSLLAASTSSVLEDGAGPHKGLQKLSRLIRFVDVVGGFRREKGYMAWIKPRYSEFPKVNSWTESSFPFG TANTGLLAVKVEVIILVSLTHAQLSRAGQHAGCTTCLQDECAVAAGEEEETQQGELADVIYPSLLAASTSSVLEDGAGPHKGLQKLSRLIRFVDVVGGFRREKGYMAWIKPRYSEFPKVNSWTESSFPFG HSP: 661 E-value: 0.001446314485823671

  18. Zaključak • Bioinformatika je postala veoma važan deo mnogih grana biologije • Sekvenciranje i označavanje genoma i njihovih mutacija • Datamining biološke literature i kreiranje ontologija gena • Razumevanje evolucionarnih aspekata molekularne biologije • Personalizovana medicina • Medicinski model koji predlaže prilagođavanje zdravstvene zaštitesvakom pojedinačnom pacijentu • Razmatrati ceo spektar informacija • Elektronski medicinski kartoni • Klinička ispitivanja • Farmaceutska istraživanja

  19. Zaključak • Sakupljanje informacija iz stvarnog sveta • Razvoj analitike koja će biti u mogućnosti da prepozna veze među ovim podacima i kreira predikcione modele • Unapređenje algoritama • Prilagođenje za rad u distribuiranim sistemima • Projektovanje specijalizovanog hardvera (npr. FPGA čipova)

  20. Literatura [1] Sul S., Tovchigrechko A., “Parallelizing BLAST and SOM algorithms with MapReduce-MPI library”, IEEE International Parallel & Distributed Processing Symposium, 2011. [2] Cristianini N., Hahn W. M., “Introduction to Computational Genomics a Case Studies Approach”, Cambridge University Press, New York, USA, 2006. [3] Lin J., Dyer C., “Data-Intensive Text Processing with MapReduce”, manuscript of a book in the Morgan & Claypool Synthesis Lectures on Human Language Technologies, University of Maryland, College Park, USA, April 2010. [4] White T., “Hadoop: The Definitive Guide – First Edition” O’Reilly Media, Inc., USA, June 2009. [5] http://en.wikipedia.org/wiki/BLAST [6] http://en.wikipedia.org/wiki/BLOSUM [7] http://en.wikipedia.org/wiki/Bioinformatics

  21. Hvala na pažnji Pitanja Siniša Ivković sinisa.ivkovic@gmail.com

More Related