240 likes | 336 Views
Identification et étude préliminaire des séquences d’introns du chordé Oikopleura dioica. Pascal Chourrout - 2003. Phylogenie. OIKOPLEURA DIOICA. CIONA INTESTINALIS. F. F. M. “M”. pélagique, métamorphose discrète, cycle de vie ultracourt
E N D
Identification et étude préliminaire des séquences d’introns du chordé Oikopleura dioica Pascal Chourrout - 2003
OIKOPLEURA DIOICA CIONA INTESTINALIS F F M “M” • pélagique, métamorphose discrète, cycle de vie ultracourt • Génome partiellement séquencé 65 Mb (plus petit connu) • fixe, cycle de vie 3 mois • génome 160 Mb (année 2002)
operon BAC 140 kb: 33 gènes prédits, 29 confirmés
Longueur de gène et position d'intron: Oikopleura vs. human stomatin 29 kb (15 kb) * human * 1,2 kb (0,8 kb) oikopleura glycine transporter 1/2 55 kb (50 kb) * * human 18 kb (11,7 kb) * * human * * 3,1 kb (2,1 kb) oikopleura retinoblastoma-binding protein 7 * 30 kb human * 1,6 kb oikopleura protein phosphatase 2 regulatory unit PR65 * 35 kb human * 2,2 kb oikopleura
Recherche d'introns • Prédiction de transcrits • Genscan • Prédiction de zones d'épissage • Réseaux neuronaux • (http://www.fruitfly.org/seq_tools/splice.htmlgu) • Alignement transcrits réels – génome • EST2GENOME (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/index.html)
5 kb SHOTGUN DATA 44,797 contigs; 41 non-redundant megabases 84% of ESTs covered on > 1/4 of their length 63% of ESTs covered on > 1/2 of their length 38% of ESTs covered on > 3/4 of their length Matériel COVERAGE of ESTs (n: 1200 nr) by SHOTGUN DATASET • ESTs • Nombre = 1174 • Moyenne = 715 nt • Minimum = 130 nt • Maximum = 2675 nt • Contigs génomiques • Nombre = 44797 • Moyenne = 915 nt • Minimum = 51 nt • Maximum = 14822 nt
Blast alone ftp://ftp.ncbi.nih.gov/blast/executables/ Formatdb -i oiko.nt -p F -o T Blastall -p blastn -d oiko.nt -i est.nt -o sortie.out
Query= UNLa_001_a07 (775 letters) Database: fasta5.nt 44,797 sequences; 40,983,092 total letters Score E Sequences producing significant alignments: (bits) Value oiko-qh1g07_r1t 1459 0.0 oiko-qa2e02_r1t 904 0.0 ETC... >oiko-qh1g07_r1t Length = 2818 Score = 1459 bits (736), Expect = 0.0 Identities = 767/776 (98%), Gaps = 1/776 (0%) Strand = Plus / Plus Query: 1 gcggttccgccggcgaacgctccggcaacggtcgatactgtcacgcaacaacagactcaa 60 |||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||| Sbjct: 1859 gcggttccgccggcgaacgctccggcaacggtcgctactgtcacgcaacaacagactcaa 1918 Query: 61 tcgccatccatcgctgggacgtctccatcaacggtttcttcagccactacaaccgcgtcg 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1919 tcgccatccatcgctgggacgtctccatcaacggtttcttcagccactacaaccgcgtcg 1978 etc... Query: 721 tgagcgccgttgccgcgctctcgcacgagtacctaggcgtt-aaacaaaagctgat 775 ||||||||||||||||||||||||||||||||||||||||| |||||||||||||| Sbjct: 2579 tgagcgccgttgccgcgctctcgcacgagtacctaggcgttaaaacaaaagctgat 2634 >oiko-qa2e02_r1t Length = 1591
Synthèse du BLAST (liste des homologies) Delphi # on n'enregistre que si e_val <= e-10 et $identity >= 97 sub enregistre { if (($_[3] <= 1e-10) && ($_[4] >= 95)) { my $chaine=join("\t",@_); print SORTIE "$chaine\n"; $nbsortie++; } } Perl Nombre d'homologies = 2866 concernant 1041/1174 EST
562 116 443 398 ATA..CAGAAACGCAAAA GTAATATT..GTTTTCAG ACTCAAGTTTCA..ATG ATA..CAGAAACGCAAAA ACTCAAGTTTCA..ATG 284 1 403 283 Alignements successifs contigüs UNLa_001_e06oiko-jt2g10_r1t001 283 116 398 UNLa_001_e06oiko-jt2g10_r1t284 403 443 562
Recouvrement de 2 alignements successifs 43 nt GTGATTA..CGAACTTGTTCAG AGG...CTAACAAGCAGG TGATTA..CGAACTTGTT CAGGATTTGCC...GCA 39 nt 502 335 462 589 AGG...CTAACAAG CAGG ATTTGCC...GCA 369 242 453 366 UNLa_002_e06 oiko-to2c03_r1t242 369335 462 UNLa_002_e06 oiko-to2c03_r1t366 453502 589
Distribution de taille des recouvrements Si pas de biais statistique: p(n trous) = (n+1) * (1/4)n * (3/4)2
Extraction des séquences d'introns • Fichier des coordonnées d'introns: • tri croissant des matchs du Blast • si deux matchs sur un même EST, écriture des coordonnées • Récupération des séquences introniques: • lecture intégrale du fichier génomique pour contruction d'un tableau de listes chainées des positions des contigs dans le fichier (indice = somme des caractères du nom de séquence % 256) • Lecture du fichier des coordonnées d'introns, positionnement dans fichier génomique, récupération séquence et inversion si Plus/minus
(n+1) combinaisons 1234 YYYY...YYYY 234 1 YYYY...YYYY 34 YYYY...YYYY 12 4 YYYY...YYYY 123 1234 YYYY...YYYY Réarrangement des introns Consensus G...AG • 38/1019 ne sont pas réarrangés • Taille mode = 45 • Recouvrement mode = 2 • 981/1019 sont réarrangés • Taille mode = 44 • Recouvrement mode = 2 • 38/981 impliquent EST reverse • Toujours 1 seul arrangement possible
-Génome : 40,1 % -ESTs : 47,4 % -Introns : 31,7 % Composition G+C/total
Taille des introns 44 (Lim & Burge 2001)
A G T G T G A A T T T A T G T G A A A T T A A A T T C A A T T C T C C A C A C C G C A A C A C T C C T A T A C G G A G C T C G G A A C T C C G G T G G G G T G C G G G C Extrémités des Introns Sur 984 introns: - 885 (90,0 %) commencent par GT, - 65 ( 6,7 %) commencent par GA, - 23 ( 2,3 %) commencent par GC, - 11 ( 1,1 %) commencent par GG. G (non T): Déjà vu mais fréquences paraissent élevées Brackenridge et al. 2003, Farrer et al, 2002 (association epissage alternatif, niveaux expression particuliers)
FIN Pascal Chourrout - 2003