Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorPaschoal, Alexandre Rossi-
Autor(es): dc.contributorhttps://orcid.org/0000-0002-8887-0582-
Autor(es): dc.contributorhttps://lattes.cnpq.br/5834088144837137-
Autor(es): dc.contributorVarani, Alessandro de Mello-
Autor(es): dc.contributorhttps://lattes.cnpq.br/9429712259649346-
Autor(es): dc.contributorPaschoal, Alexandre Rossi-
Autor(es): dc.contributorhttps://lattes.cnpq.br/5834088144837137-
Autor(es): dc.contributorLopes, Fabricio Martins-
Autor(es): dc.contributorhttps://lattes.cnpq.br/1660070580824436-
Autor(es): dc.contributorValente, Guilherme Targino-
Autor(es): dc.contributorBoas, Laurival Antonio Vilas-
Autor(es): dc.contributorhttps://lattes.cnpq.br/6053806923630324-
Autor(es): dc.creatorBarbosa, Murilo Caminotto-
Data de aceite: dc.date.accessioned2025-08-29T12:04:44Z-
Data de disponibilização: dc.date.available2025-08-29T12:04:44Z-
Data de envio: dc.date.issued2025-08-19-
Data de envio: dc.date.issued2095-07-30-
Data de envio: dc.date.issued2025-08-19-
Data de envio: dc.date.issued2025-05-29-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/37935-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1088584-
Descrição: dc.descriptionWith the advancement of sequencing technologies, the development of tools capable of processing this type of data and extracting actionable knowledge for industry has become increasingly necessary. A promising application is the identification of bacteria correlated with agricultural productivity, with the potential to predict crop yields in future harvests. This type of application has a direct impact on the agricultural industry and significant economic potential. Although there are tools that integrate physical, chemical, and biological soil data to support agricultural management, they are not designed to handle the compositional nature of sequencing data and, therefore, cannot identify the bacteria responsible for producing these elements. Selecting bacteria, rather than just soil elements, is essential, as microbial communities respond dynamically to environmental changes—such as rainfall or drought—offering more sensitive and predictive insights into soil health. To address this gap, we developed CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), a tool capable of associating microbiome data with continuous environmental variables and making predictions on new samples — a capability not previously available in tools from this field. CODARFE was developed in collaboration with the company SUPERBAC, which provided its proprietary microbiome database for model training and validation. The tool was able to predict soybean yield in clay soils with a mean absolute error of 248 kg/ha, equivalent to only 7% deviation from the national average, by integrating selected bacterial abundances with physical and chemical soil variables. Furthermore, during a 10-month research exchange at the European Bioinfor matics Institute (EMBL-EBI), under the Dr. Robert Finn’s supervision, through the CAPES (PDSE) program, the method was refined and tested on a variety of public datasets, leading to its integration into the MGnify platform. As a result, CODARFE was made available in five accessible formats (Python class, Windows executable, Linux command line, interactive notebook, and via MGnify) and published in the journal GigaScience, enhancing its visibility and accessibility to the scientific community. The tool has two software registrations: a public registration, ensuring access for the research community, and a private registration tied to the partnership with SUPERBAC, protecting the commercial usage rights of the model developed with proprietary data.-
Descrição: dc.descriptionCom o avanço das tecnologias de sequenciamento, torna-se cada vez mais neces sário o desenvolvimento de ferramentas capazes de processar e extrair conhecimento deste tipo de informação. Uma aplicação promissora é a identificação de bactérias correlacionadas com a produtividade agrícola, com potencial de prever o rendimento de safras futuras. Esta aplicação tem impacto direto na indústria agrícola e elevado potencial econômico. Embora existam ferramentas que integrem dados físicos, químicos e biológicos do solo paraapoiar o manejo agrícola, elas não foram projetadas para lidar com a natureza composicional dos dados de sequenciamento e, por isso, não conseguem identificar as bactérias responsáveis pela produção desses elementos. A seleção de bactérias, em vez de apenas elementos presentes no solo, é essencial, uma vez que elas respondem dinamicamente a mudanças ambientais, como chuvas e secas, oferecendo informações mais sensíveis e preditivas sobre a saúde do solo. A fim de preencher essa lacuna, desenvolvemos o CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), uma ferramenta capaz de associar dados de microbioma a variáveis ambientais contínuas e realizar predições em novas amostras — algo inédito até então entre ferramentas da área. O desenvolvimento do CODARFE foi realizado em parceria com a empresa SUPERBAC, que forneceu seu banco de dados de microbioma para o treinamento e validação do modelo. A ferramenta foi capaz de prever a produtividade de soja em solos argilosos com erro médio absoluto de 248 kg/ha, equivalente a um desvio de apenas 7% em relação à média nacional, ao integrar a abundância de bactérias selecionadas com variáveis físicas e químicas do solo. Além disso, durante um período de 10 meses no European Bioinformatics Institute (EMBL-EBI), sob supervisão do Dr. Robert Finn, por meio do Programa de Doutorado Sanduíche no Exterior (PDSE) da CAPES, o método foi refinado e testado em dados públicos variados, resultando em sua integração à plataforma MGnify. O método foi validado em 24 banco de dados diferentes (19 de solo e 5 de humanos), e comparado com quatro outras ferramentas, superando-as em 21 dos 24 bancos de dados testados (87.5%) nos quesitos correlação com o alvo e taxa de verdadeiro positivos. Como resultado, o CODARFE foi disponibilizado em cinco formatos acessíveis (classe Python, executável para Windows, linha de comando Linux, notebook interativo e via MGnify) e publicado no periódico GigaScience, contribuindo para sua ampla disseminação e acessibilidade. A ferramenta possui dois registros de software: um registro público, assegurando6 sua disponibilidade à comunidade científica, e um registro privado vinculado à parceria com a SUPERBAC, protegendo os direitos de uso comercial do modelo desenvolvido com dados proprietários.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherCornelio Procopio-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherPrograma de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsembargoedAccess-
Palavras-chave: dc.subjectAprendizado do computador-
Palavras-chave: dc.subjectProdutividade agrícola-
Palavras-chave: dc.subjectBioinformática-
Palavras-chave: dc.subjectMachine learning-
Palavras-chave: dc.subjectAgricultural productivity-
Palavras-chave: dc.subjectBioinformatics-
Palavras-chave: dc.subjectCNPQ::CIENCIAS SOCIAIS APLICADAS-
Palavras-chave: dc.subjectCiência da Computação-
Título: dc.titleReconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas-
Título: dc.titleRecognition of patterns in microbiome and prediction ofcontinuous environmental variables-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.