Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas Tiago Edmundo Ribeiro Brito Orientadora: Katia S. Guimarães Mestrado em Ciência da Computação

Roteiro • Proteínas e sua Importância • Estruturas das Proteínas • Determinação da Estrutura 3-D • Bibliotecas de Fragmentos • Trabalho Proposto • Conclusões

Proteínas • Proteínas são polímeros cuja unidade básica é o aminoácido. • São os principais e mais abundantes componentes orgânicos da célula, participando das estruturas celulares e dos processos bioquímicos da fisiologia celular.

Estruturas das Proteínas • Níveis Estruturais • Est. Primária (Seqüência de Aminoácidos) • Est. Secundária (Arranjos Recorrentes dos R) • Est. Terciária (Conformação 3-D) • Função x Forma 3-D

Determinação da Est. 3-D • Métodos Experimentais: • Cristalografia • Ressonância Magnética Nuclear • Extremamente precisos, porém caros e instáveis • Métodos Teóricos: • Homologia ou Modelagem Comparativa (tradicional) • Bibliotecas de Fragmentos (nova tendência)

Homologia • Baseia-se na comparação entre as proteínas-alvo e outras cuja estrutura já seja conhecida • Alinhamento entre proteínas homólogas e o alvo • Verificação de proximidades locais • Construção e validação do modelo total • Desvantagens • Requer pesquisa de proteínas homólogas • Processo iterativo, com aplicação de restrições ao final de cada passo

Bibliotecas de Fragmentos • Baseia-se na construção de conjuntos de fragmentos representativos de proteínas • 1986, Jones et al.: o backbone das proteínas é composto de estruturas repetidas (4 a 10 resíduos) • Dificuldade • Infinitas possibilidades de conformação entre dois fragmentos • Solução • Usar forte restrição na conformação

Bib. Fragmentos - Motivação • Breve histórico estrutural das proteínas: • Há quase 50 anos, as hélices  e fitas foram descritas por Corey & Pauling. • Dez anos mais tarde, os ângulos de torção  e , permitidos a cada resíduo na interação das ramificações laterais com a cadeia principal, foram definidos por Ramachandran • Em 1986 - Jones & Thirup detectam que quase todas as regiões do backbone da proteína são formadas por estruturas canônicas repetidas. • Posteriormente, Unger et al. classificaram as unidades peptídicas, formadas de 4 a 10 resíduos, da cadeia principal das proteínas numa coleção de fragmentos. Nível intermediário de representação das estruturas das proteínas (entre a estrutura primária e a secundária).

Bib. Fragmentos - Motivação • Mesmo utilizando os ângulos de torção para restringir o grau de liberdade, a cadeia de uma proteína pode ter um número infinito de diferentes conformações. • Restringir a conformação local dos resíduos para um número limitado de estados pode ajudar na discretização da conformação da proteína, reduzindo o número de possíveis arranjos espaciais. • Logicamente, a utilidade deste tipo de modelo depende da exatidão com que ele modela a conformação real da proteína bem como sua complexidade, o número de possíveis estados de cada resíduo.

Bib. Fragmentos – Princípio • Encontrar um conjunto finito de fragmentos de proteínas que possam ser utilizados para aproximar a conformação espacial de qualquer proteína com boa precisão.

Bib. Fragmentos – Etapas • I – Conjunto de Treinamento • II – Construção das Bibliotecas • III – Modelagem do Alvo • IV – Validação do Modelo

Bib. Fragmentos – Etapa I • Conjunto de Treinamento • Seleção das proteínas que darão origem às bibliotecas • Fragmentação com escolha do comprimento dos fragmentos

Bib. Fragmentos – Etapa II • Construção das Bibliotecas • Agrupamento dos fragmentos mais representativos através de clustering • Escolha de uma das técnicas existentes • Uso de uma métrica de comparação entre fragmentos

Bib. Fragmentos – Etapa III • Modelagem do Alvo • A partir de uma biblioteca, modela-se a estrutura da proteína-alvo, semelhante à montagem de um quebra-cabeças • Aplicação de restrições

Bib. Fragmentos – Etapa IV • Validação do Modelo • Comparação com o modelo real (testes) • Uso de softwares específicos

Bib. Fragmentos – Est. Caso • Estudo exaustivo com bibliotecas de fragmentos de comprimento variando de 4 a 7 resíduos. (Cientistas da Univ. de Stanford) • A exatidão das representações discretas depende da sua complexidade e varia de 1.9Å para um modelo de 4 estados e fragmentos de tamanho 7 até 0.76Å para um modelo de 15 estados e fragmentos de tamanho 5.

Bib. Fragmentos – Est. Caso • Para a fase inicial de clustering um conjunto de proteínas do PDB, com os dados estruturais mais confiáveis, serviu como conjunto de dados inicial (tabela 1). • Deste conjunto de proteínas foram extraídos quatro conjuntos de treinamento de fragmentos de backbone de proteínas. Estes conjuntos de treinamento diferiam no comprimento dos fragmentos que variava de 4 a 7 resíduos. O número de fragmentos em cada conjunto foi 8949, 7123, 5910, 5029 para comprimentos de 4, 5, 6 e 7 resíduos, respectivamente.

Bib. Fragmentos – Est. Caso • Antes da aplicação da técnica de clustering duas observações a respeito dos dados do conjunto de testes precisam ser ressaltadas: os fragmentos considerados fora do padrão e a grande quantidade de fragmentos hélice . • Os primeiros são aqueles cujo desvio cRMS em relação a todos os outros é relativamente alto. De acordo com um limiar, estes fragmentos são removidos. Cerca de 10% são descartados com os seguintes valores de limiar: 0.074Å, 0.307Å, 0.487Å e 0.755Å, para conjuntos de de comprimento 4, 5, 6 e 7 resíduos, respectivamente. • A grande quantidade de fragmentos contendo hélices  dificulta a rotina de clustering.

Bib. Fragmentos – Est. Caso • A similaridade estrutural entre dois fragmentos é medida através do desvio cRMS entre os átomos Cα, após superposições usando mínimos quadrados.

Bib. Fragmentos – Est. Caso • Técnica de clustering:Simulated annealing k-means. • Indicado para vários problemas de clustering utilizando dados biológicos com distribuição desconhecida e desigual dos objetos. • derivada da k-means pelo melhoramento do conjunto de centroids. • O k-means clustering é executado repetidas vezes mesclando dois conjuntos e dividindo outro. • Os conjuntos a serem mesclados são selecionados aleatoriamente, sendo que os conjuntos mais próximos têm maiores chances de ser selecionados. • O conjunto a ser dividido também é selecionado aleatoriamente, sendo que conjuntos dispersos têm mais chances de ser escolhidos.

Bib. Fragmentos – Est. Caso • Várias funções diferentes foram testadas na atribuição de uma pontuação a cada conjunto e a escolhida (melhores resultados) foi a variância total do conjunto (soma de todos os quadrados das distâncias dos fragmentos em relação ao elemento principal do conjunto - centroid). • O número de conjuntos desejado é um parâmetro para a rotina de clustering. • O método utilizado é melhor que o seu antecessor pois lida melhor com altas concentrações de fragmentos (grande quantidade de hélices ) e por ser indiferente à escolha inicial dos elementos centrais dos conjuntos.

Bib. Fragmentos – Est. Caso • Esta técnica é ainda um pouco melhor que o método de clustering hierárquico (cujo tempo de execução é muito maior) que mescla os conjuntos em baseando-se na distância máxima entre quaisquer dois membros de conjuntos diferentes. • O resultado da aplicação da técnica de clustering é compilado em bibliotecas, pequenos conjuntos de fragmentos representativos de proteínas. As bibliotecas são representações dos conjuntos e são constituídas pelos elementos centrais dos mesmos (o fragmento com a mínima soma dos desvios cRMS relativo a todos os outros fragmentos do conjunto).

Bib. Fragmentos – Est. Caso • Muitas execuções da rotina de clustering são realizadas (variando o número de conjuntos e o comprimento dos fragmentos). Cada execução inicia-se com 50 diferentes elementos centrais (sementes) aleatórias e, ao final, escolhe a melhor biblioteca com a mínima pontuação de variância total. • Como os fragmentos agrupados são utilizados para construir bibliotecas representativas de todos os fragmentos do conjunto de treinamento, é esperado que resultem em boas bibliotecas, representando também todos os motifs encontrados nas proteínas reais. Para mensurar a qualidade de uma biblioteca são usados o local e o global fits (ajustes), obtidos a partir da aproximação da estrutura das proteínas do conjunto de testes (independente do conjunto de treinamento).

Bib. Fragmentos – Est. Caso • Local-fit: medida de quão bem a biblioteca modela a conformação local de todas as proteínas no conjunto de testes. • Cada proteína é desmembrada num conjunto de fragmentos de tamanho específico f. Cada fragmento da proteína é associado a um fragmento da biblioteca que contenha o melhor valor do cRMS. • O local-fit é a média dos valores dos cRMS de todos os fragmentos aproximados.

Bib. Fragmentos – Est. Caso • Global-fit, é a medida de quão bem uma biblioteca modela a conformação tridimensional global de todas as proteínas do conjunto de testes. • Uma forma de construir estruturas tridimensionais contíguas a partir das bibliotecas de fragmentos é concatenar os fragmentos de bibliotecas com melhores local-fit citados anteriormente. • Superpondo o primeiro átomo C de cada fragmento com o último átomo C  do fragmento anterior, torna-se necessário especificar a orientação dos dois fragmentos. Isso pode ser feito pela especificação os ângulos de torção  e . • Porém, em muitos casos, estes ângulos podem assumir uma grande combinação de valores.

Bib. Fragmentos – Est. Caso • A solução encontrada foi utilizar o chamado global-fit aproximado, onde a posição de um fragmento é determinada pela superposição dos seus três primeiros C com os três últimos do fragmento anterior (Exemplo 2-D na figura 6). • Esta abordagem discretiza o espaço de todas as aproximações construindo uma relação de um para um entre uma sequência de fragmentos e sua representação tridimensional. • Enquanto o melhor local-fit pode ser facilmente calculado, a sequência de fragmentos de biblioteca necessários para o global-fit é muito mais difícil de encontrar. • A sequência ótima de fragmentos de biblioteca deve definir a estrutura 3-D com o mínimo desvio cRMS em relação à estrutura real da proteína alvo.

Bib. Fragmentos – Est. Caso • Conjunto de teste de proteínas utilizado por Park & Levitt. Inclui 145 proteínas com diferentes estruturas de motifs, de comprimentos variáveis entre 36 e 753 resíduos. (Tabela 1, identificadores do PDB das 145 proteínas). • Facilidade na comparação e extensão dos resultados obtidos em relação aos dois autores citados.

Bib. Fragmentos – Est. Caso • Tabela 2 mostra os melhores valores do local-fit. • A figura 1 mostra os dados da tabela 2 em função da complexidade das bibliotecas. Os fragmentos das proteínas do conjunto de teste podem ser descritos satisfatoriamente por qualquer das bibliotecas consideradas (desvio abaixo de 1Å em todos os casos). • Para bibliotecas cujos fragmentos têm o mesmo tamanho, a exatidão do local-fit aumenta junto com a complexidade. • Para bibliotecas que possuem a mesma complexidade, a exatidão do local-fit aumenta com a diminuição do número de resíduos dos fragmentos (Menor número de átomos C).

Bib. Fragmentos – Est. Caso • Tabela 2 mostra também os valores do global-fit. • A figura 2 mostra os dados da tabela 2 em função da complexidade das bibliotecas. A média do global-fit no conjunto de testes varia de 2.58 Å, para a complexidade mais baixa, até 0.76 Å para a biblioteca de complexidade mais alta. • Para fragmentos que têm o mesmo tamanho, bibliotecas mais complexas oferecem uma melhor aproximação pelo global-fit. • Para uma mesma complexidade, bibliotecas cujos fragmentos têm maior comprimento resultam numa melhor aproximação do global-fit.

Bib. Fragmentos – Est. Caso • Figura 4 mostra a média do desvio cRMS das aproximações local-fit versus a mesma medida das aproximações global-fit. • O local-fit é sempre menor que o cRMS global-fit correspondente. Isto já era esperado, pois o local-fit ignora a ligação entre fragmentos adjacentes ao longo da cadeia. • Desta forma, pode-se utilizar o local-fit na estimativa do global-fit. É possível perceber também que, para um mesmo nível de global-fit, o local-fit decresce com o comprimento do fragmento.

Bib. Fragmentos – Est. Caso • A dependência da exatidão das aproximações em relação ao comprimento das proteínas aproximadas. • Foram considerados os desvios cRMS da melhor aproximação local-fit e da melhor aproximação global-fitversus o comprimento do polipeptídio. • A exatidão da aproximação local-fit é independente do comprimento da cadeia. • Já as aproximações global-fit são ligeiramente dependentes do comprimento da cadeia (os dados não foram exibidos). • Exemplo de aproximações na figura 5.

Bib. Fragmentos – Est. Caso • Nas aproximações feitas com as bibliotecas de fragmentos o global-fit varia de 2.9 Ǻ até 0.76 Ǻ com complexidades de 2.66 a 15 estados por resíduo, respectivamente. • Os modelos resultantes da aproximação da estrutura das proteínas utilizando tais bibliotecas são úteis para: • predição de estruturas, • ajustes de loops, • enumeração exaustiva de conformações de peptídeos e • determinação de estrutura de baixa resolução através de ressonância nuclear magnética (nuclear magnetic ressonance - NMR) ou critalografia de raio-X.

Bib. Fragmentos – Est. Caso • Resultados ainda melhores são esperados com a utilização de bibliotecas de fragmentos de tamanho 6 ou 7. • Porém, para construção de tais bibliotecas uma grande quantidade de dados de coordenadas de proteínas é necessário. Aqui, são utilizadas bibliotecas de 250 fragmentos de comprimento 7 que apresentam uma complexidade de 1.91 Å. Para atingir 1 Å seria necessário uma complexidade em torno de 8 e 84 = 4096 fragmentos (futuro, com o crescimento na determinação das estruturas das proteínas).

Proposta de Trabalho • Construir e analisar diferentes tipos de bibliotecas de fragmentos • Objetivo principal: • Determinar parâmetros ideais para aproximação de estruturas de proteínas • Variações serem testadas • Métrica de similaridade • Técnicas de clustering • Comprimento dos resíduos • Tamanho das bibliotecas

Conclusões • Técnicas computacionais x Distância entre seqüências e estruturas 3-D • Uso de bibliotecas de fragmentos • técnica mais rápida e tão precisa quanto a modelagem comparativa • Proposta • Necessidade de aprofundamento e estabelecimento de parâmetros ideais na aplicação da nova técnica

Referências • HOLMES, J. Bradley and TSAI, Jerry. Protein Science. 2004, 13, P. 1636-1650. • KOLODNY, Rachel; KOEHL, Patrice; GUIBAS, Leonidas and LEVITT, Michael. Journal of Molecular Biology. 2002, 323, P. 297-307.

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas Tiago Edmundo Ribeiro Brito <terb@cin.ufpe.br>

Voltar

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas

Presentation Transcript

Proyecto para integrar destrezas de información al currículo graduado de la Facultad de Educación

Taking Aim at Comprehension: Teaching Children to Infer

DIVERSIDADE RELIGIOSA BRASILEIRA

GESTION DE LA CALIDAD EN LA BIBLIOTECA UNIVERSITARIA

VISÃO ITENS ESSENCIAIS ABORDADOS EM UMA COMUNHÃO NA ESTÂNCIA

Vigilância dos padrões dos Serviços de Proteção Social Especial

AULA 02 1° semestre/2013

Algunos aspectos de la implementación de TOY

Computação I MPCE

Hábitos de Lectura y Compra de libros en España 2009 Informe y de Resultados

Água subterrânea

Haplotyping algorithms and structure of human variation

Hábitos de Lectura y Compra de libros en España 2007 Informe metodológico y de resultados

SILVAN DA SILVA FARIAS COORDENADOR GERAL PARA DESBRAVADORES DA APLAC SOCORRISTA DA SES-DF

Estruturas de Dados Espaciais

ESTRUTURAS GEOLÓGICAS DO BRASIL

A instância e seus incidentes

Algunos aspectos de la implementación de TOY

Tecnologia

CAPÍTULO 6

António Albano Baptista Moreira

Taller para editores y autores científicos