Avaliação de critérios de otimalidade em um método de seleção de atributos em GWAS

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorOliveira, Fabrízzio Condé de-
Autor(es): dc.contributorTelles, Wagner Rambaldi-
Autor(es): dc.contributorGorges, Carlos Cristiano Hasenclever-
Autor(es): dc.creatorSouza, Juliara de Lima-
Data de aceite: dc.date.accessioned2024-07-11T17:31:44Z-
Data de disponibilização: dc.date.available2024-07-11T17:31:44Z-
Data de envio: dc.date.issued2023-09-19-
Data de envio: dc.date.issued2023-09-19-
Fonte completa do material: dc.identifierhttp://app.uff.br/riuff/handle/1/30447-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/752142-
Descrição: dc.descriptionEstudos de Associação em Escala Genômica (do inglês, Genome Wide Association Studies - GWAS) procuram identificar variações no genoma que estão associados a certos fenótipos. Esses estudos utilizam os marcadores do tipo SNP (Polimorfismo de Nucleotídeo único), onde os mesmos podem ser associados com o fenótipo ou podem estar correlacionados com outras mutações associadas à característica fenotípica. A partir desses estudos, buscam-se métodos que são capazes de selecionar os SNPs mais informativos, aqueles que realmente estão associados ao fenótipo proposto. Os métodos mais utilizados são aqueles baseados no valor-p de cada SNP em testes estatísticos. Contudo, esses métodos capturam apenas SNPs com somente efeitos aditivos mas existirão problemas onde a associação presente pode ser não-linear, com duplas ou trios de SNPs interagindo. Em vista disso, este trabalho propõe um método já existente de seleção de SNPs baseado em técnicas de Aprendizado de Máquina denominado SNP Markers Selector (SMS) com novas medidas de otimalidade denominadas R2 ajustado e Erro Quadrático Médio (Mean Squared Error - MSE) com o intuito de comparar com o método já existente do SMS com sua medida baseada na correlação de Pearson, objetivando uma contribuição positiva em relação a busca de SNPs verdadeiros-positivos e a redução dos SNPs falsos-positivos. O método SMS conta com três etapas, a primeira referente à relevância dos marcadores, a segunda referente ao corte responsável pela definição de conjuntos de SNPs relevantes mas ainda com algum nível de ruído e a terceira, referente ao refinamento do corte feito na etapa anterior, buscando diminuir os SNPs não informativos. As três etapas do SMS foram implementadas utilizando Florestas Aleatórias, Máquina de Vetores Suporte com Regressão e Algoritmos Genéticos, respectivamente. O SMS pode ser aplicado em dois tipos de problemas, os de regressão (fenótipos contínuos), que serão alvos de estudo neste trabalho, e os de classificação (fenótipos discretos). O método SMS foi aplicado em seis conjuntos de bases de dados simulados. O método proposto baseado nas medidas de otimalidade R2 ajustado e MSE obtiveram melhores resultados em algumas simulações, tendo o número de SNPs falsos-positivos bem reduzido e capturaram SNPs que a correlação não foi capaz, contudo, em outras simulações a correlação de Pearson mostrou-se superior encontrando um número maior de SNPs informativos. Diante disso, o método demonstrou ser eficiente, mas não superou em todos os cenários o método SMS baseado na correlação de Pearson.-
Descrição: dc.descriptionGenomic Wide Association Studies (from english, Genome Wide Association Studies - GWAS) seek to identify variations in the genome that are associated with certain phenotypes. These studies use SNP (Single Nucleotide Polymorphism) markers, where they may be associated with the phenotype or may be correlated with other mutations associated with the phenotypic trait. From these studies, methods are sought that are able to select the most informative SNPs, those that are really associated with the proposed phenotype. The most used methods are those based on the p-value of each SNP in statistical tests. However, these methods capture only SNPs with only additive effects but there will be problems where the association present may be non-linear, with pairs or trios of SNPs interacting. In view of this, this work proposes an existing method of SNP selection based on Machine Learning techniques called SNP Markers Selector - (SMS) with new optimality measures called adjusted R2 and Mean Square Error (Mean Squared Error - MSE) in order to compare with the existing method of SMS with its measure based on Pearson’s correlation, aiming at a positive contribution in relation to the search for true-positive SNPs and the reduction of false-positive SNPs. The SMS method has three steps, the first referring to the relevance of the markers, the second referring to the cut responsible for defining sets of relevant SNPs but still with some level of noise and the third referring to the refinement of the cut made in the previous step, seeking to reduce non-informative SNPs. The three steps of SMS were implemented using Random Forests, Support Vector Machine with Regression and Genetic Algorithms, respectively. The SMS can be applied to two types of problems, those of regression (continuous phenotypes), which will be studied in this work, and those of classification (discrete phenotypes). The SMS method was applied to six sets of simulated databases. The proposed method based on the adjusted optimality measures R2 and MSE obtained better results in some simulations, having the number of false-positive SNPs well reduced and capturing SNPs that the correlation was not able to, however, in In other simulations, Pearson’s correlation proved to be superior, finding a greater number of informative SNPs. Therefore, the method proved to be efficient, but it did not surpass the SMS method based on Pearson’s correlation in all scenarios.-
Descrição: dc.description105 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectEstudos de Associação em Escala Genômica-
Palavras-chave: dc.subjectPolimorfismo de Nucleotídeo Único-
Palavras-chave: dc.subjectCorrelação de Pearson-
Palavras-chave: dc.subjectR2 ajustado-
Palavras-chave: dc.subjectErro Quadrático Médio-
Palavras-chave: dc.subjectSNP Markers Selector-
Palavras-chave: dc.subjectFlorestas Aleatórias-
Palavras-chave: dc.subjectMáquina de Vetores Suporte-
Palavras-chave: dc.subjectAlgorítmos Genéticos-
Palavras-chave: dc.subjectPolimorfismo de nucleotídeo único-
Palavras-chave: dc.subjectGenome Wide Association Studies-
Palavras-chave: dc.subjectSimple Nucleotide Polymorphism-
Palavras-chave: dc.subjectPearson’s Correlation-
Palavras-chave: dc.subjectR2 adjusted-
Palavras-chave: dc.subjectMean Square Error-
Palavras-chave: dc.subjectSNP Markers Selector-
Palavras-chave: dc.subjectRandom Forest-
Palavras-chave: dc.subjectSupport Vector Regression-
Palavras-chave: dc.subjectGenetic Algorithm-
Título: dc.titleAvaliação de critérios de otimalidade em um método de seleção de atributos em GWAS-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.