Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvens federadas

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorHolanda, Maristela Terto de-
Autor(es): dc.contributorAraújo, Aletéia Patrícia Favacho de-
Autor(es): dc.creatorOliveira, Polyane Wercelens de-
Data de aceite: dc.date.accessioned2021-10-14T18:14:59Z-
Data de disponibilização: dc.date.available2021-10-14T18:14:59Z-
Data de envio: dc.date.issued2020-04-01-
Data de envio: dc.date.issued2020-04-01-
Data de envio: dc.date.issued2020-04-01-
Data de envio: dc.date.issued2019-07-03-
Fonte completa do material: dc.identifierhttps://repositorio.unb.br/handle/10482/37275-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/627065-
Descrição: dc.descriptionDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.-
Descrição: dc.descriptionWorkflows de Bioinformática prioritariamente visam tratar, processar e analisar dados oriundos de sequenciamento de DNA/RNA. A diversidade desses workflows é dependente da questão biológica que se pretende responder, e por isso podem ser bastante com- plexos. O uso de nuvem federada em workflows de Bioinformática, ao mesmo tempo que oferece flexibilidade para o usuário, pode aumentar o trabalho de configuração do ambiente quando comparado a um ambiente de nuvem computacional. Independentemente da questão biológica, e considerando o ambiente computacional como parte do experimento in silico, a documentação do workflow tem particularidades a serem preservadas com vistas à sua reprodutibilidade. Os modelos de proveniência de dados proveem uma estrutura de armazenamento e recuperação dos dados de proveniência, mantendo seus significados. A maneira com a qual os dados de proveniência são armazenados é outra característica, cujos aspectos tecnológicos influenciam o resultado final. Neste contexto, este trabalho propõe uma solução que permita o gerenciamento de dados de proveniência de workflows de Bioinformática em um ambiente de nuvem federada, armazenando os dados de proveniência de forma distribuída em esquemas de dados baseados no PROV- DM, utilizando sistemas de banco de dados NoSQL. Nos resultados, foram explorados aspectos relacionados à federação de nuvens, o que proporcionou menos dependência de um único provedor para os serviços hospedados. Em relação às bases de dados, este trabalho traz três opções de tecnologias de banco de dados para armazenar a proveniência de dados usando o modelo de dados PROV-DM, incluindo o esquema de dados específico de cada banco de dados, que pode ser usado de acordo com a preferência do pesquisador ou integrado aos sistemas de gerenciamento de workflows. Por fim, a solução proposta demonstrou ser adequada para o gerenciamento dos dados de proveniência para workflows de Bioinformática em nuvem federada.-
Descrição: dc.descriptionBioinformatics workflows essentially aim to treat, process, and analyze data from DNA or RNA sequencing. The diversity of these workflows is dependent on the biological question to be answered, which therefore can be quite complex. The computational environment is part of the in silico experiment, and regardless of biological questions, the workflow’s documentation has particularities to be preserved to promote its reproducibility. Data provenance models address this problem providing a storage and query structure of data provenance while maintaining their meanings. Moreover, technological aspects can influence how data provenance is stored. Using federated cloud in Bioinformatics workflows can provide both flexibility for the user and increase the environment configuring work compared to a cloud computing environment. In this context, this work proposes a solution to data provenance management for Bioinformatics workflows using NoSQL database systems in a federated cloud environment, storing data provenance in distributed databases using data schemas based on PROV-DM. The results report aspects related to cloud federation providing less dependence on a single provider for the hosted services. Concerning the databases, this work draws three options of database technolo- gies to store data provenance using the PROV-DM data model. Specific database data schemas are provided and can be used according to the researcher’s preference and can be integrated into workflow management systems. Finally, it is proposed a suitable solution for the data provenance management for Bioinformatics workflows in a federated cloud.-
Formato: dc.formatapplication/pdf-
Direitos: dc.rightsAcesso Aberto-
Direitos: dc.rightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.-
Palavras-chave: dc.subjectBioinformática-
Palavras-chave: dc.subjectBanco de dados-
Palavras-chave: dc.subjectNoSQL (Not Only SQL)-
Palavras-chave: dc.subjectNuvens federadas-
Palavras-chave: dc.subjectNuvens computacionais-
Título: dc.titleGerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvens federadas-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositório Institucional – UNB

Não existem arquivos associados a este item.