Atenção: Todas as denúncias são sigilosas e sua identidade será preservada.
Os campos nome e e-mail são de preenchimento opcional
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Lopes, Heitor Silverio | - |
Autor(es): dc.contributor | https://orcid.org/0000-0003-3984-1432 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/4045818083957064 | - |
Autor(es): dc.contributor | Benitez, Cesar Manuel Vargas | - |
Autor(es): dc.contributor | https://orcid.org/0000-0002-5691-5432 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/3930929146154435 | - |
Autor(es): dc.contributor | Britto Junior, Alceu de Souza | - |
Autor(es): dc.contributor | https://orcid.org/0000-0002-3064-3563 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/4251936710939364 | - |
Autor(es): dc.contributor | Lopes, Fabricio Martins | - |
Autor(es): dc.contributor | http://orcid.org/0000-0002-8786-3313 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/1660070580824436 | - |
Autor(es): dc.contributor | Lopes, Heitor Silverio | - |
Autor(es): dc.contributor | https://orcid.org/0000-0003-3984-1432 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/4045818083957064 | - |
Autor(es): dc.contributor | Frigori, Rafael Bertolini | - |
Autor(es): dc.contributor | https://orcid.org/0000-0002-4861-7240 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/5836878566801544 | - |
Autor(es): dc.contributor | Parpinelli, Rafael Stubs | - |
Autor(es): dc.contributor | https://orcid.org/0000-0001-7326-5032 | - |
Autor(es): dc.contributor | http://lattes.cnpq.br/4456007001373501 | - |
Autor(es): dc.creator | Hattori, Leandro Takeshi | - |
Data de aceite: dc.date.accessioned | 2022-02-21T21:33:42Z | - |
Data de disponibilização: dc.date.available | 2022-02-21T21:33:42Z | - |
Data de envio: dc.date.issued | 2021-05-16 | - |
Data de envio: dc.date.issued | 2021-05-16 | - |
Data de envio: dc.date.issued | 2020-11-29 | - |
Fonte completa do material: dc.identifier | http://repositorio.utfpr.edu.br/jspui/handle/1/24963 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/655407 | - |
Descrição: dc.description | The Protein Folding Problem (PFP) is one of the main challenges in the Computational Biology area. Globular proteins are believed to evolve from random initial conformations through folding pathways achieving, in almost all cases, to a functional native structure. Studies of the folding process are related to several abnormal events, such as misfolding and protein aggregation. Therefore, several computational approaches have been proposed in the literature for this problem. Deep Learning (DL) methods have been highlighted in studies in the Proteomics area, given their ability to extract features vectors and their efficiency after the training process. Recurrent Neural Networks (RNN) are cyclic DL methods that have achieved state-of-the-art performance for sequential and temporal problems. Therefore, this thesis presents contributions to studying the spatial-temporal pathways of the protein folding using RNN methods. To achieve these contributions, experiments of this thesis were organized in three steps: develop a framework to generate a massive amount of protein folding data using pure sequential and parallel Molecular Dynamics (MD) methods in the canonical ensemble; propose a Neighbourhood List (NL) approach to the parallel MD method; apply RNNs networks to the PFP. In the first step, we presented a package called PathMolD-AB to simulate and analyze folding data trajectories using the 3D-AB off-lattice model to represent the protein structure. The datasets generated from PathMolD-AB correspond to the MD evolution of 3,500 folding pathways, encompassing 35×106 states. The speedup analysis showed that the parallel approach obtained faster simulations when used protein sequences with more than 99 amino acids were used. In the second step, the NL approach with parallel MD showed higher improvement in the speedup performance than the purely parallel MD version with protein sequences between 99 to 1,000 amino acids, which covers 80% of the entire Protein Data Bank (PDB). In the last step of this thesis, a comparative analysis between RNNs architectures were carried out using the many-to-one model with datasets generated by the PathMold-AB. Results indicate that the Long Short-Term Memory ( obtained the best performance than other RNNs architectures in terms of prediction error. The biological analysis indicated that the LSTM predicted structures with similar features to the target (MD), in terms of hydrophobic and polar compactness, and also torsion and bond energies, suggesting that this approach is auspicious for the PFP study. | - |
Descrição: dc.description | O Protein Folding Problem (PFP) é um dos principais desafios da área de Biologia Computacional. Acredita-se que as proteínas globulares evoluem de conformações iniciais aleatórias através de trajetórias de dobramento, alcançando, em quase todos os casos, uma estrutura nativa funcional. Estudos relacionados ao dobramento proteico estão relacionados a vários eventos anormais, como dobramento incorreto e agregação de proteínas. Portanto, várias abordagens computacionais têm sido propostas na literatura para este problema. Métodos de Deep Learning (DL) têm se destacado em estudos na área de Proteômica, dada a sua capacidade de extrair vetores de características e também pela sua eficiência após o processo de treinamento. Recurrent Neural Network (RNN) são métodos DL cíclicos que alcançaram desempenho do estado-da-arte para problemas sequenciais e temporais. Esta tese apresenta contribuições para o estudo das trajetórias espaço-temporais do enovelamento de proteínas utilizando métodos RNN. Para alcançar essas contribuições, os experimentos desta tese foram organizados em três etapas: desenvolver um framework para gerar grande quantidades de dados de dobramento de proteínas usando métodos sequenciais e paralelos de Molecular Dynamics (MD) no ensemble canônico; propor uma abordagem de Neighbourhood List (NL) para o método MD paralelo; aplicar redes RNNs ao PFP. Na primeira etapa, apresentamos um pacote chamado PathMolD-AB para simular e analisar trajetórias de dados de dobramento usando o modelo 3D-AB off-lattice para representar a estrutura da proteína. Os conjuntos de dados gerados a partir do PathMolD-AB correspondem à 3.500 trajetórias de dobras, abrangendo 35 × 106 estados de dobramento. A análise de speedup mostrou que a abordagem paralela obteve simulações mais rápidas quando se utilizaram sequências de proteínas com mais de 99 aminoácidos. Na segunda etapa, a abordagem NL com MD paralelo mostrou melhoria no desempenho de aceleração do que a versão MD puramente paralela com sequências de proteínas entre 99 a 1.000 aminoácidos, que abrange 80 % de todo o Protein Data Bank (PDB). Na última etapa desta tese, foi realizada uma análise comparativa entre as arquiteturas de RNNs utilizando o modelo many-to-one com conjuntos de dados gerados pelo PathMold-AB. Os resultados indicam que a Long Short-Term Memory (LSTM) obteve o melhor desempenho que as outras arquiteturas de RNNs em termos de erro de predição. A análise biológica indicou que a rede LSTM previu estruturas com características semelhantes ao alvo (MD), em termos de compactação hidrofóbica e polar, e também energias de torção e ligação, sugerindo que esta abordagem é auspiciosa para o estudo PFP. | - |
Formato: dc.format | application/pdf | - |
Idioma: dc.language | en | - |
Publicador: dc.publisher | Universidade Tecnológica Federal do Paraná | - |
Publicador: dc.publisher | Curitiba | - |
Publicador: dc.publisher | Brasil | - |
Publicador: dc.publisher | Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial | - |
Publicador: dc.publisher | UTFPR | - |
Direitos: dc.rights | openAccess | - |
Direitos: dc.rights | http://creativecommons.org/licenses/by/4.0/ | - |
Palavras-chave: dc.subject | Proteínas | - |
Palavras-chave: dc.subject | Dinâmica molecular | - |
Palavras-chave: dc.subject | Biologia computacional | - |
Palavras-chave: dc.subject | Computação de alto desempenho | - |
Palavras-chave: dc.subject | Biologia Molecular Computacional | - |
Palavras-chave: dc.subject | Proteômica - Processamento de dados | - |
Palavras-chave: dc.subject | Simulação (Computadores) | - |
Palavras-chave: dc.subject | Proteins | - |
Palavras-chave: dc.subject | Molecular dynamics | - |
Palavras-chave: dc.subject | Computational biology | - |
Palavras-chave: dc.subject | High performance computing | - |
Palavras-chave: dc.subject | Computational molecular biology | - |
Palavras-chave: dc.subject | Proteomics - Data processing | - |
Palavras-chave: dc.subject | Computer simulation | - |
Palavras-chave: dc.subject | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | - |
Palavras-chave: dc.subject | Engenharia Elétrica | - |
Título: dc.title | Contributions to the study of the protein folding problem using deep learning and molecular dynamics | - |
Título: dc.title | Contribuições para o estudo do problema de dobramento de proteínas usando métodos de aprendizado profundo e dinâmica molecular | - |
Tipo de arquivo: dc.type | livro digital | - |
Aparece nas coleções: | Repositorio Institucional da UTFPR - RIUT |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: