930 likes | 1.36k Views
Ðнализ белковой поÑледовательноÑти. Ðнализ только аминокиÑлотной поÑледовательноÑть (первичную Ñтруктуру) белка без боковых цепей. ПредÑказание физико-химичеÑких параметров белка ПредÑказание продуктов раÑÑ‰ÐµÐ¿Ð»ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ñ‚ÐµÐ°Ð·Ð°Ð¼Ð¸
E N D
Анализ белковой последовательности Анализ только аминокислотной последовательность (первичную структуру) белка без боковых цепей. • Предсказание физико-химических параметров белка • Предсказание продуктов расщепления протеазами • Гидрофобные, гидрофильные участки: например, трансмембранные сегменты • Пост-трансляционные модификации • Функциональные домены, принадлежность к функциональным семействам • Фолдинг • Клеточная локализация
Анализ белковой последовательности The ExPASy server – протеомикаhttp://www.expasy.ch/tools/#primary • The Swiss EMBnet – coiled-coil участки, выравнивания и др. http://www.ch.embnet.org • The CBS Prediction Servers – локализация, пост-трансляционные модификации… http://www.cbs.dtu.dk/services
ProtParam - предсказание физико-химических параметров белка
ProtParam • Молекулярный вес • Аминокислотный состав • Extinction coefficient – коэффициент поглощения (280 nm) • Instability (менее 40 – хорошо) – нестабильность в эксперименте (test tube, статистика дипептидов) • Half-life (yeast in vivo, mammalian reticulocytes in vitro, Escherichia coli in vivo) • Алифатический индекс • Grand average of hydropathicity (GRAVY)гидрофильность – (-), гидрофобность – (+)
Метод скользящего окна Анализируется последовательность в несколько аминокислот, параметр усредняется по окну. Значение приписывается средней аминокислоте. Output – график Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV <---*---> Window 1 <---*---> Window 2 <---*---> Window 3 Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!) • Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно: • Учитывать только очень четко выраженные сигналы • Не зависящие от параметров программы – размера окна, конкретного метода и т.п.
Предсказание трансмембранных сегментов: ProtScale 56 аминокислотных шкал (с литературными ссылками), скользящее окно -> выбор ширины окна
Более сложное предсказание трансмембранных сегментов: TMHMM Transmembrane beta barrel prediction: PROFtmb(http://rostlab.org/services/proftmb ); PRED-TMBB (http://biophysics.biol.uoa.gr/PRED-TMBB/); TBBPred (http://www.imtech.res.in/raghava/tbbpred )
TMHMM - результаты Нашёл 7 TMs TMHMM предсказывает сегменты, а также топологию межсегментных участков
Домены • Домен – независимая глобулярная единица в белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.) • Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков • Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?
История коллекций доменов • 1980ые – PROSITE: ручная выборка паттернов в белках, определяющих функцию • 1987 – доменный профайл (Gribskov): position specific scoring schema – это вероятность для каждой аминокислоты находиться в данной позиции домена • начало 1990х – BLOCKs, PRINTs, Prodom… • PfamA – коллекция профайлов, курированная вручную (сейчас также использует HMM)
Cерверы для поиска доменов • InterProScan http://www.ebi.ac.uk/InterProScan • CD (Conserved Domain) server (NCBI) http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi • Pfscan http://hits.isb-sib.ch/cgi-bin/PFSCAN • Domachttp://www.bioinfotool.org/domac.html • Scooby http://www.ibi.vu.nl/programs/scoobywww/ • Domprohttp://www.ics.uci.edu/~baldig/domain.html
InterPro InterProisadatabaseofproteinfamilies, domainsandfunctionalsitesinwhichidentifiablefeaturesfoundinknownproteinscanbeappliedtounknownproteinsequences. Базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию С 2001 года – Release 18.0: 75.6% UniProt
Как это происходит Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документациясемейства подробно описывает функцию и структуру соответствующей белковой подписи.
CD server Input - Accession number, gi или последовательность в FASTA формате
CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена
CDART – поиск белков с аналогичной доменной структурой
Pfscan Как правило, работает несколько минут
Pfscan - output Особенности вывода Pfscan • Схема – легенда, как всегда под рисунком • За легендой следует таблица с локализацией доменов • Далее расшифровка каждого хита – с оценкой вероятности • Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)
Structure Classification Databases 3D structural similarities (~70%): • SCOP (MRC Cambridge) • CATH (University College, London) • Dali FSSP (EBI, Cambridge) • 3 Dee (EBI, Cambridge) FOLD recognition: • 3D-pssm • TOPITS (EMBL) • UCLA-DOE Structre Prediction Server (UCLA) • 123D • UCSC HMM (UCSC) • FAS (Burnham Institute) • UCLA-DOE Fold-Recognition Benchmark Home Page
SCOP-Structural Classification of Proteins • База данных содержит структурную и эволюционную информацию о взаимосвязях белков с известными структурами. • Классификация белков отражает структурные и эволюционные отношения. • Многоуровневая иерархия – семейство, суперсемейство и фолд. • Ручное инспектирование.
SCOP Superfamily: Probable common evolutionary origin Белки, имеющие низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить наличие общего предка, могут быть объединены в суперсемейства. Например, актин, the ATPase domain белков теплового шока и гексакиназы образуют суперсемейство Fold: Major structural similarity Общий фолд – одинаковая организация вторичной струкруры, с похожим пространственным расположением и с похожими соединениями. Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной структуры , изгибы и повороты различных разметов и конформаций (до половины всей структуры). Белки, объединённые одним фолдом, могут не иметь общего предка (химия, физика упаковка и топология)
SCOP Family: Clear evolutionarily relationship Белки, сгруппированные в семейство, тесно связаны эволюционно. Это значит, что парное выравнивание показывает 30% и выше. Иногда похожие функция и структура показывают наличие общего предка и при отсутствии высокой идентичности последовательностей; например, многие глобины образуют семейство, хотя некоторые из них имеют идентичность 1D ~15%.
CATH (Brookhavenprotein databank ) • Class, Architecture, Topology, Homology database – иерархическая классификация доменов структур белков Формируется автоматически, но инспектируется вручную
CATH Class, C-level • Класс определяется в соответствии с набором и упаковкой вторичной структуры. Он может быть присвоен как автоматически (90% of the known structures), так и вручную. • 3 главных класса: • преимущественно-alpha • преимущественно-beta • alpha-beta (alpha/beta and alpha+beta) • Четвертый класс – белки, содержащие домены без выраженной структуры..
CATH Architecture, A-level • Описывает общий вид доменной структуры, определяемой как ориентация элементов вторичной структуры, но без учета их соединений. • Присваивается вручную (используя простое описание структуры). • Разрабатываются способы автоматизации этого процесса. Topology (fold family), T-level • Структуры группируются в зависимости как от общего вида,так и от соединений элементов вторичной структуры. Алгоритмы сравнения структур.
CATH Homologous superfamily, H-level • Этот уровень объединяет белки, которые, по-видимому, имеют общего предка(гомологи). • Похожесть и идентичнсть – сначала по сравнению последовательностей, затем – сравнение структур. Sequence families, S-level • Структуры в каждом H-level затем группируются поидентичности последовательностей. • Домены, объединенные в семейства последовательностей, имеют идентичноcть 1D >35% , что показывает похожие структуру и функции.
SCOP / CATH SCOPCATH class class architecture fold topology homologous superfamily superfamily family sequence family domain domain CATH - преимущественно структурная классификация, SCOP - эволюционные взаимосвязи CATH - один класс, представляющий смешанную α-β структуру SCOP - 2 класса: α/β: beta структуры параллельны, образуют βαβ мотивы α+β: alpha и beta структуры присутствуют в различных частях протеина
SCOP / CATH -> DALI SCOP & CATH • Иерахические, базирующиеся на абстракциях • Создаются (частично) и курируются вручную экспертами Presentation of results of the classification, where the methods that underlie the classification remain internal Structure comparison
DALI Comparing protein structures in 3D a b meander anti parallel b barrel a/b a b More information about DALI Touring protein fold space with Dali/FSSP: Liisa Holm and Chris Sander
DALI • The FSSP database (Fold classification based on Structure-Structure alignment of Proteins)базируется на all-against-all сравнении 3D структур белков в Protein Data Bank (PDB). • Классификация и выравнивание структур автоматически поддерживается и обновляется сервисом Dali search engine. • Dali Domain Dictionary • Структурные домены выделяются автоматически. Каждый получает Domain Classification number.
DALI • Fold types • Типы фолдов – кластеры структур в пространстве фолдов с средним парным Z-scores (by Dali) выше 2. • Высокий Z-score соответствует структурам с близкой архитектурой.
DALI • Базируется на выравненных 2D матрицах внутримолекулярных дистанций • Считает лучший subset соответствующих аминокислот в двух белках – максимальная похожесть 2D матриц дистанций • Поиск по всем возможным выравниваниям остатков – Monte-Carlo и branch-and-bound algorithms An intra-molecular distance plot for myoglobin
Pfam Database • Pfam– коллекция результатов множественного выравнивания последовательностей и HMM, содержащая большое количество доменов и семейств белков. Для каждого семейства в Pfam: • Просмотреть результаты MSA • Увидеть архитектуру доменов • Распределение по видам • Перекрестные ссылки • Получить известные 3D структуры • Pfam can be accessed directly or from the PDB description.
Homstrad Database • HOMologous STRucture Alignment Database • Предоставляет выровненные 3D структуры гомологичных белков. • Homstrad - структурный эквивалент Pfam. Вначале структуры белков поступают из PDB, кандидаты семейств традиционно идентифицируются поиском по Pfam.Используются определения доменов из SCOP и информация о белках собирается из SwissProt, Pfam and Interpro. • Аннотирование – в программе Joy, которая предоставляет следующую информацию: • Тип вторичной структуры • Относительную доступность боковых цепей • Наличие водородных связей между амидом и карбонилом • Дисульфидные связи • Положительные phi торзионные углы
PClass Database Инструмент для классификации, базирующийся на иерархии 600 белков-представителей из PDB. Структурное выравнивание 600 структур было выполнено при помощи алгоритма 3dSearch.
3D Structure Validation • Теория: Белки – молекулы несложные: • Линейная структура цепей. • Только 20 различных аминокислот. • На практике:Мы не понимаем в деталях механизм сворачивания белковых структур. • Единственные «силы», используемые для уточнения, «улучшения» новой структуры – это данные измерений и некоторые факты, присущие для ВСЕХ молекул • В общем случае используемая информация недостаточна для распознавания уникальной структуры. • Значительная часть работы по уточнению структуры – взгляд эксперта и ручные корректировки. • Белки содержат тысячи атомов и невозможно постоянно выполнять ручные корректировки. • Это – источник неправильных структур и «слабых мест» в глобьально верных структурах.