Simulação de Enovelamento de Proteína

De Física Computacional
Ir para navegação Ir para pesquisar

Carolina Lenzi

Este trabalho tem como objetivo utilizar o método de Monte Carlo para simular o enovelamento de proteínas.


Proteínas

As proteínas são moléculas com papel fundamental para os seres vivos. Elas atuam em diversos processos biológicos, como o transporte de oxigênio, a catálise de reações químicas, a defesa do organismo, a formação dos hormônios e formação de ossos e tendões. As proteínas são formadas por centenas de aminoácidos ligados em cadeia por ligações covalentes. Existem 20 aminoácidos proteinogênicos que dão origem às proteínas conhecidas e encontradas na natureza. Cada sequência de aminoácidos ligados covalentemente gera uma proteína diferente, com uma função específica no organismo. Essa sequência, bem determinada, é chamada de estrutura primária da proteína.

Figura 1: Estruturas da proteína

A proteína tende a se enovelar para minimizar a energia da sua estrutura, relativa às interações não covalentes (como ligações de hidrogênio, ponte salina, interações hidrofóbicas, interações iônicas…) entre os aminoácidos e com o meio. Isso é possível porque as ligações químicas possuem uma certa flexibilidade, que permite a rotação das moléculas. O enovelamento da estrutura primária gera regiões com padrões regulares na proteína, chamadas de estrutura secundária. Essas regiões regulares também tendem a se enovelar, dando origem a estrutura terciária da proteína. A estrutura terciária de menor energia é, geralmente, a conformação funcional da proteína, ou seja, sua configuração em estado biologicamente ativo, que é conhecida como forma nativa. Em alguns casos as estruturas terciárias podem se aglomerar e formar as estruturas quaternárias.


Como a função da proteína está diretamente relacionada com a sua forma nativa, e esta está relacionada com a sequência de aminoácidos que dá origem à proteína, é interessante conseguir prever a estrutura terciária a partir da estrutura primária, com a finalidade de desenvolver proteínas com características específicas. Esse é um dos grandes problemas da bioinformática atualmente. Além da complexidade de compreender a termodinâmica e o mecanismo do enovelamento, a proteína encontra a estrutura ótima em fração de segundo, mas o tempo que seria necessário para testar aleatoriamente as estruturas possíveis para encontrar a de menor energia é maior que a idade do universo, como apontado no paradoxo de Levinthal.

Simulação de Monte Carlo

A simulação do enovelamento foi feita com base no livro do Giordano e envolve um modelo muito simplificado do que acontece na realidade. O código foi implementado em C e os gráficos foram gerados no gnuplot.

Consideramos uma cadeia de N aminoácidos, sorteados dentre os 20 possíveis, para montar a estrutura primária da proteína, representada por um vetor de tamanho N. Aminoácidos em posições adjacentes do vetor são considerados ligados covalentemente. A cadeia é colocada em uma rede quadrada de tamanho NxN, para permitir que a proteína esteja completamente desenovelada (esticada).

Figura 2: Cadeia de N aminoácidos
Figura 3: Rede NxN

Em cada posição da rede, um aminoácido tem no máximo 4 aminoácidos vizinhos mais próximos com os quais pode interagir ou estar ligado (figura 4) e no máximo 8 posições vizinhas para as quais ele pode se mover (figura 5).


Para as interações de não covalentes entre os aminoácidos, consideramos as seguintes forças atuantes:

  • Forças de van der Waals: força atrativa para aminoácidos próximos, que perde o efeito com o aumento da distancia entre os aminoacidos;
  • Ligações de hidrogênio: ligações entre aminoácidos próximos na rede;
  • Interação com a água (hidrofilicidade e hidrofobia): aminoácidos hidrofílicos são atraídos pela água presente no meio e, por isso, tendem a manter a cadeia não enovelada. Já os hidrofóbicos repelem a água do meio e preferem uma estrutura enovelada.

Todas essas forças estão competindo no processo de enovelamento da proteína. Para o modelo, agrupamos essas interações em uma energia Jij, associada a um par de aminoácidos vizinhos na rede, A(m) e A(n) nas posições i e j, e não ligados covalentemente, ou seja, não adjacentes na cadeia. A energia da estrutura é dada pela soma sobre todos os pares de aminoácidos da proteína:

onde se os aminoácidos m e n são vizinhos na rede e não estão ligados covalentemente, e zero caso contrário.

A energia J pode ser pensada como uma matriz 20x20 contendo as interações relativas a todos os pares de aminoácidos, porém a matriz é simétrica, portanto, podemos guardar apenas 210 valores correspondentes aos pares distintos de aminoácidos.

Com essas definições, podemos partir para a simulação de Monte Carlo, esquematizada a seguir:

  1. Inicializar a cadeia e posicionar na rede
  2. Sortear um aminoácido da cadeia e encontrar sua posição na rede
  3. Calcular a energia inicial (Ei) da estrutura
  4. Sortear um dos 8 vizinhos da posição do aminoácido
  5. Verificar se é possível mover o aminoácido para a posição vizinha sorteada
    1. Se possível, mover o aminoácido e calcular a energia da nova estrutura (Ef)
    2. Se Ef < Ei, aceitar o movimento
    3. Se Ef >= Ei, aceitar o movimento com probabilidade do fator de Boltzmann
    4. Desfazer o movimento se ele não for aceito
  6. Contar um tempo de Monte Carlo a cada sorteio de vizinho
  7. Repetir a partir do passo 2.

A simulação consiste em repetir esses passos (a partir do 2) por longos tempos de Monte Carlo.

Resultados

Em todas as simulações, foi utilizada a mesma cadeia de 15 aminoácidos e os mesmos valores de energia Jij, que foram sorteados dentro do intervalo [-4, -2]. As energias foram medidas em unidades de kB por simplicidade. Incicialmente, a cadeia foi colocada esticada no meio da rede, como mostra a figura 6.

Figura 6: Rede inicial

Nas figuras a seguir, temos a energia e o tamanho da cadeia (calculado como a distância ponta a ponta da cadeia) em função do tempo de simulação. Essa simulação foi feita com temperatura T = 10 e um total de 5x105 tempo de Monte Carlo. A temperatura alta permite que a proteína explore várias configurações e teste estruturas de diferentes energias, por isso, o gráfico tem tanta flutuação. Como várias estruturas diferentes são testadas, algumas são mais abertas e outras mais compactas, então o tamanho da cadeia também flutua bastante.