1 / 24

Identification et étude préliminaire des séquences d’introns du chordé Oikopleura dioica

Identification et étude préliminaire des séquences d’introns du chordé Oikopleura dioica. Pascal Chourrout - 2003. Phylogenie. OIKOPLEURA DIOICA. CIONA INTESTINALIS. F. F. M. “M”. pélagique, métamorphose discrète, cycle de vie ultracourt

gordon
Download Presentation

Identification et étude préliminaire des séquences d’introns du chordé Oikopleura dioica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Identification et étude préliminaire des séquences d’introns du chordé Oikopleura dioica Pascal Chourrout - 2003

  2. Phylogenie

  3. OIKOPLEURA DIOICA CIONA INTESTINALIS F F M “M” • pélagique, métamorphose discrète, cycle de vie ultracourt • Génome partiellement séquencé 65 Mb (plus petit connu)‏ • fixe, cycle de vie 3 mois • génome 160 Mb (année 2002)‏

  4. operon BAC 140 kb: 33 gènes prédits, 29 confirmés

  5. Longueur de gène et position d'intron: Oikopleura vs. human stomatin 29 kb (15 kb)‏ * human * 1,2 kb (0,8 kb)‏ oikopleura glycine transporter 1/2 55 kb (50 kb)‏ * * human 18 kb (11,7 kb)‏ * * human * * 3,1 kb (2,1 kb)‏ oikopleura retinoblastoma-binding protein 7 * 30 kb human * 1,6 kb oikopleura protein phosphatase 2 regulatory unit PR65 * 35 kb human * 2,2 kb oikopleura

  6. Epissage

  7. Recherche d'introns • Prédiction de transcrits • Genscan • Prédiction de zones d'épissage • Réseaux neuronaux • (http://www.fruitfly.org/seq_tools/splice.htmlgu)‏ • Alignement transcrits réels – génome • EST2GENOME (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/index.html)‏

  8. 5 kb SHOTGUN DATA 44,797 contigs; 41 non-redundant megabases 84% of ESTs covered on > 1/4 of their length 63% of ESTs covered on > 1/2 of their length 38% of ESTs covered on > 3/4 of their length Matériel COVERAGE of ESTs (n: 1200 nr) by SHOTGUN DATASET • ESTs • Nombre = 1174 • Moyenne = 715 nt • Minimum = 130 nt • Maximum = 2675 nt • Contigs génomiques • Nombre = 44797 • Moyenne = 915 nt • Minimum = 51 nt • Maximum = 14822 nt

  9. Blast alone ftp://ftp.ncbi.nih.gov/blast/executables/ Formatdb -i oiko.nt -p F -o T Blastall -p blastn -d oiko.nt -i est.nt -o sortie.out

  10. Query= UNLa_001_a07 (775 letters)‏ Database: fasta5.nt 44,797 sequences; 40,983,092 total letters Score E Sequences producing significant alignments: (bits) Value oiko-qh1g07_r1t 1459 0.0 oiko-qa2e02_r1t 904 0.0 ETC... >oiko-qh1g07_r1t Length = 2818 Score = 1459 bits (736), Expect = 0.0 Identities = 767/776 (98%), Gaps = 1/776 (0%)‏ Strand = Plus / Plus Query: 1 gcggttccgccggcgaacgctccggcaacggtcgatactgtcacgcaacaacagactcaa 60 |||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||| Sbjct: 1859 gcggttccgccggcgaacgctccggcaacggtcgctactgtcacgcaacaacagactcaa 1918 Query: 61 tcgccatccatcgctgggacgtctccatcaacggtttcttcagccactacaaccgcgtcg 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1919 tcgccatccatcgctgggacgtctccatcaacggtttcttcagccactacaaccgcgtcg 1978 etc... Query: 721 tgagcgccgttgccgcgctctcgcacgagtacctaggcgtt-aaacaaaagctgat 775 ||||||||||||||||||||||||||||||||||||||||| |||||||||||||| Sbjct: 2579 tgagcgccgttgccgcgctctcgcacgagtacctaggcgttaaaacaaaagctgat 2634 >oiko-qa2e02_r1t Length = 1591

  11. Synthèse du BLAST (liste des homologies)‏ Delphi # on n'enregistre que si e_val <= e-10 et $identity >= 97 sub enregistre { if (($_[3] <= 1e-10) && ($_[4] >= 95)) { my $chaine=join("\t",@_); print SORTIE "$chaine\n"; $nbsortie++; } } Perl Nombre d'homologies = 2866 concernant 1041/1174 EST

  12. 562 116 443 398 ATA..CAGAAACGCAAAA GTAATATT..GTTTTCAG ACTCAAGTTTCA..ATG ATA..CAGAAACGCAAAA ACTCAAGTTTCA..ATG 284 1 403 283 Alignements successifs contigüs UNLa_001_e06oiko-jt2g10_r1t001 283 116 398 UNLa_001_e06oiko-jt2g10_r1t284 403 443 562

  13. Recouvrement de 2 alignements successifs 43 nt GTGATTA..CGAACTTGTTCAG AGG...CTAACAAGCAGG TGATTA..CGAACTTGTT CAGGATTTGCC...GCA 39 nt 502 335 462 589 AGG...CTAACAAG CAGG ATTTGCC...GCA 369 242 453 366 UNLa_002_e06 oiko-to2c03_r1t242 369335 462 UNLa_002_e06 oiko-to2c03_r1t366 453502 589

  14. Distribution de taille des recouvrements Si pas de biais statistique: p(n trous) = (n+1) * (1/4)n * (3/4)2

  15. « Trous » entre homologies successives delta

  16. Extraction des séquences d'introns • Fichier des coordonnées d'introns: • tri croissant des matchs du Blast • si deux matchs sur un même EST, écriture des coordonnées • Récupération des séquences introniques: • lecture intégrale du fichier génomique pour contruction d'un tableau de listes chainées des positions des contigs dans le fichier (indice = somme des caractères du nom de séquence % 256)‏ • Lecture du fichier des coordonnées d'introns, positionnement dans fichier génomique, récupération séquence et inversion si Plus/minus

  17. (n+1) combinaisons 1234 YYYY...YYYY 234 1 YYYY...YYYY 34 YYYY...YYYY 12 4 YYYY...YYYY 123 1234 YYYY...YYYY Réarrangement des introns Consensus G...AG • 38/1019 ne sont pas réarrangés • Taille mode = 45 • Recouvrement mode = 2 • 981/1019 sont réarrangés • Taille mode = 44 • Recouvrement mode = 2 • 38/981 impliquent EST reverse • Toujours 1 seul arrangement possible

  18. -Génome : 40,1 % -ESTs : 47,4 % -Introns : 31,7 % Composition G+C/total

  19. Taille des introns 44 (Lim & Burge 2001)‏

  20. A G T G T G A A T T T A T G T G A A A T T A A A T T C A A T T C T C C A C A C C G C A A C A C T C C T A T A C G G A G C T C G G A A C T C C G G T G G G G T G C G G G C Extrémités des Introns Sur 984 introns: - 885 (90,0 %) commencent par GT, - 65 ( 6,7 %) commencent par GA, - 23 ( 2,3 %) commencent par GC, - 11 ( 1,1 %) commencent par GG. G (non T): Déjà vu mais fréquences paraissent élevées Brackenridge et al. 2003, Farrer et al, 2002 (association epissage alternatif, niveaux expression particuliers)‏

  21. FIN Pascal Chourrout - 2003

More Related