MSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorRebello, Eugene Francis Vinod-
Autor(es): dc.contributorOliveira, Daniel Cardoso Moraes de-
Autor(es): dc.contributorKowada, Luis Antonio Brasil-
Autor(es): dc.contributorSena, Alexandre da Costa-
Autor(es): dc.contributorMelo, Alba Cristina Magalhães Alves de-
Autor(es): dc.creatorJoão Junior, Mario-
Data de aceite: dc.date.accessioned2025-08-21T20:15:32Z-
Data de disponibilização: dc.date.available2025-08-21T20:15:32Z-
Data de envio: dc.date.issued2025-08-15-
Data de envio: dc.date.issued2025-08-15-
Fonte completa do material: dc.identifierhttps://app.uff.br/riuff/handle/1/39829-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1057711-
Descrição: dc.descriptionO Alinhamento Múltiplo de Sequências (do inglês, Multiple Sequence Alignment - MSA) é um passo fundamental para a resolução de uma variedade de problemas em Biologia Computacional. Dada a sua complexidade computacional, tipicamente uma das inúmeras estratégias baseadas em heurísticas, propostas e revisadas nas últimas duas ou mais décadas, é adotada para produzir uma solução, porém, sem garantia de ser ótima. Tradicionalmente, as heurísticas mais utilizadas se baseiam no Alinhamento Progressivo e são implementadas em ferramentas seguindo um conjunto de etapas pré-definido. Os cientistas geralmente escolhem a ferramenta com que possuem mais afinidade ou que acreditam ser a melhor. Isso pode significar, no entanto, que algumas heurísticas estão sendo ignoradas. Este trabalho fragmenta algumas das ferramentas existentes, consideradas padrão-ouro, e recombina (crossover) suas técnicas para criar, efetivamente, heurísticas aprimoradas. A viabilidade dessa ideia é endossada por uma análise estatística detalhada e pela comparação de novas estratégias, que incorporaram o uso da consistência a heurísticas que não a usam, especialmente para sequências com baixa porcentagem de identidade. Mais importante, as novas estratégias, geradas pela recombinação de técnicas existentes, produzem alinhamentos com melhor acurácia do que as ferramentas baseadas em consistência mais usadas para alinhamento múltiplo. Baseado nessas recombinações de técnicas, foi criado o MSA-XFlow, um gerador de múltiplos alinhamentos múltiplos que faz uso de um workflow científico para a geração eficiente dos alinhamentos, possibilitando aos cientistas a escolha entre diversos alinhamentos gerados. Por meio da reutilização de dados gerados em etapas anteriores, combinados com a paralelização intra e entre etapas, foi possível atingir um ganho de até 395,68 vezes, com 32 processadores, em relação ao que seria realizado tradicionalmente, demonstrando o grande desempenho da ferramenta.-
Descrição: dc.descriptionMultiple Sequence Alignment (MSA) is a fundamental step in solving a variety of problems in Computational Biology. Due to its computational complexity, one of the numerous heuristic-based strategies proposed and revised over the past two or more decades is often chosen to produce a solution, albeit without guaranteeing optimality. Traditionally, MSA tools are based on Progressive Alignment and implement these heuristics by applying different techniques in a predefined set of steps. Scientists generally choose the tool they are most familiar with or believe to be the best. However, this may mean that more appropriate heuristics are overlooked. This work breaks down existing gold standard tools to their core elements and proposes a tool to recombine various combinations of popular techniques to effectively create improved heuristics. The feasibility of this idea is supported by a detailed statistical analysis and the comparison of new strategies that incorporate the technique of Consistency into heuristics that do not use it. For example, results using the BAliBASE benchmark show that consistency has a significant impact on accuracy, especially for sequences with a low identity percentage. More importantly, new strategies generated by recombining existing techniques produce alignments with better accuracy than the most commonly used consistency-based tools for MSA. To dynamically evaluate these recombinations, the proposed MSA-XFlow tool efficiently generates multiple MSA solutions for a scientist to choose from. The tool's scientific workflow reuses intermediate data computed in previous steps and, combined with intra- and inter-step parallelization, is able to achieve a speedup of up to 395.68 with 32 processors, compared to traditional methods, demonstrating the tool’s high performance.-
Descrição: dc.description167 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectAlinhamento múltiplo de sequências-
Palavras-chave: dc.subjectAlinhamento baseado em consistência-
Palavras-chave: dc.subjectAlinhamento progressivo-
Palavras-chave: dc.subjectAlinhamento iterativo-
Palavras-chave: dc.subjectWorkflows científicos-
Palavras-chave: dc.subjectBiologia computacional-
Palavras-chave: dc.subjectProgramação heurística-
Palavras-chave: dc.subjectAnálise de desempenho-
Palavras-chave: dc.subjectMultiple sequence alignment-
Palavras-chave: dc.subjectConsistency-based alignment-
Palavras-chave: dc.subjectProgressive alignment-
Palavras-chave: dc.subjectIterative alignment-
Palavras-chave: dc.subjectScientific workflows-
Título: dc.titleMSA-XFlow: aplicando reengenharia genética nas ferramentas de alinhamento múltiplo de sequências-
Tipo de arquivo: dc.typeTese-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.