1 / 10

FILE DEI DATABASE

FILE DEI DATABASE. FASTA GBFF XML ASN. Formato FASTA. Il formato fasta è forse il più utilizzato dai comuni software di ricerca.

calida
Download Presentation

FILE DEI DATABASE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. FILE DEI DATABASE • FASTA • GBFF • XML • ASN

  2. Formato FASTA • Il formato fasta è forse il più utilizzato dai comuni software di ricerca. • Esso consiste in un file di testo (*.txt oppure *.fas) che, nella prima riga, comincia con il segno di maggiore; di seguito viene scritto il codice univoco della sequenza e la sua descrizione. • A capo si scrive la sequenza • la sequenza può avere caratteri maiuscoli o minuscoli Esempio: >gi|28916628|gb|AF527032.1| Cynara scolymus clone CLIB12 microsatellite sequence CTCTTGCTTACGCGTGGACTACTGCAAGAAGAAACAAGATGCCAAATTTCGAAACTTTATTTGCAATCCTTCATGGCACCTGCACTCAAACACCTTCCCACACACAGACACACACACACACATATATATACACTTCCTTGTATCATCATAACTGAAATTTTAACAG

  3. Formato GBFF • IL FORMATO DELLA GenBank Il formato di scambio utilizzato per rappresentare la sequenza è il GBFF • GBFF significa GenBank FlatFile. • Il file GBFF può essere scomposto in tre parti. 1.      HEADER 2.      DEFINITION 3.      FEATURE TABLE

  4. Formato GBFF: HEADER • 1-HEADER • La parte iniziale è la più specifica del file, il primo elemento del file è LOCUS che indica il nome del locus, dal punto di vista storico il nome dovrebbe rappresentare anche il nome del record. Solitamente è un insieme di lettere e numeri (massimo 10) ad esempio HUMBB indica il locus della beta-globulina umana. • Al fine di evitare errori o confusioni viene assegnato anche un numero di accesso indicato come un insieme di caratteri alfanumerici, questo numero è unico e specifico. • La lunghezza della sequenza viene indicata con il numero di coppie (da 1 a 350,000), in pratica si trovano sequenze da 10 bp in su; è sempre più frequente ritrovare sequenze corte circa 20 basi, che spesso figurano come “patented”: è possibile che siano sequenze di primer che amplificano geni che sono stati brevettati. • Il termine DNA indica il tipo di molecola utilizzata nella determinazione della sequenza, i tipi possono essere : DNA, RNA, tRNA, rRNA, mRNA e uRNA. • La data rappresenta il giorno in cui la sequenza è stata resa disponibile.

  5. Formato GBFF: DEFINITION • 2-DEFINITION • Con questo termine si riportano le informazioni di tipo biologico relative al record. In generale esiste un certo accordo tra i diversi data base circa la strutturazione della definizione. • L’ACCESSION, rappresenta la chiave primaria ed univoca di accesso a un determinato record. • Questo numero viene anche citato nella pubblicazione relativa (molte riviste richiedono l’accession number per una pubblicazione. • Anche se la sequenza viene aggiornata il numero non cambia. Le possibilità sono di avere una lettera Maiuscola e 5 numeri, oppure da due lettere e 6 numeri. • Si può ritrovare una versione aggiornata dell’accession ma andra solo a sommarsi • Es: ACCESSION    AJ507825  VERSION     AJ507825.1  GI:27475615 • Possiamo trovare anche un numero di accesso secondario, che costituisce il retaggio di un vecchio sistema di classificazione.

  6. Formato GBFF: DEFINITION • KEYWORDS • Rappresentano un retaggio storico, attualmente l'uso è scoraggiato in quanto molti autori hanno inserito dei termini non contenuti nel vocabolario del data base; inoltre, l’inserimento delle parole chiave non è stato applicato in modo uniforme all’intero database. • SOURCE • Indica il nome comune o il nome scientifico dell’organismo, in molti casi sono presenti anche informazioni relative alla tassonomia • Se si effettua una ricerca per specie, puo essere molto utile il: • TAXONOMY  BROWSER presente in NCBI • Ogni records della GenBank riporta una referenza bibliografica, e un link alla pubblicazione di MEDLINE. • Nella parte finale sono riportati i commenti e le note, nel passato si trovavano anche precise indicazioni sugli autori come ad esempio gli indirizzi di posta elettronica o specifiche URL, attualmente questa tendenza viene scoraggiata, in quanto gli indirizzi elettronici tendono a cambiare con una rapidità maggiore rispetto agli indirizzi postali.

  7. Formato GBFF: DEFINITION • A livello scientifico MEDLINE rappresenta la banca dati bibliografica più importante, ogni articolo viene registrato con un codice di identificazione (MUID), attraverso questo numero è facile risalire all'articolo e alla rivista. • Recentemente la NCBI, con MEDLINE e altri editori ha introdotto un nuovo identificatore chiamato PubMed (PMID) che contiene sia gli articoli pubblicati sia anche articoli non ancora pubblicat

  8. Formato GBFF: FEATURE TABLE 3-FEATURE TABLE Rappresenta il nucleo informativo di maggior interesse del record. SOURCEE’ l’unica rappresentazione comune a tutti i records della GenBank, contiene una serie di qualificatori legali e alcuni qualificatori obbligatori (esempio il tipo di organismo). Il qualificatore dell’organismo può essere descritto come genere e specie, sovente l’organismo viene descritto a livello di subspecie. CDS Le CDS costituiscono una serie di istruzioni per leggere e interpretare la sequenza.

  9. NCBI

  10. DEPOSITIAMO UNA SEQUENZA • BANKIT GenBank Direct Submission • http://www.ncbi.nlm.nih.gov/BankIt/index.html

More Related