Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorLopes, Fabrício Martins-
Autor(es): dc.contributorKashiwabara, André Yoshiaki-
Autor(es): dc.contributorLopes, Fabrício Martins-
Autor(es): dc.contributorPaschoal , Alexandre Rossi-
Autor(es): dc.contributorKashiwabara, André Yoshiaki-
Autor(es): dc.creatorConque, Bruno Mendes Moro-
Data de aceite: dc.date.accessioned2022-08-04T20:19:51Z-
Data de disponibilização: dc.date.available2022-08-04T20:19:51Z-
Data de envio: dc.date.issued2022-05-10-
Data de envio: dc.date.issued2022-05-10-
Data de envio: dc.date.issued2014-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/28364-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/706823-
Descrição: dc.descriptionWithin the scope of bioinformatics, pattern recognition in genomic sequences can be used to classify regions (gene, promoter, non-coding) of a DNA. In this sense, if a model a good classification occurs can be generated to infer unknown sequences. Faced with this prospect, measures that represent characteristics within these sequences must be identified. This paper proposes two methods to characterize the genomic sequences based on the theory of complex networks and information theory. Information theory deals with the frequency of occurrences of nucleotide, dinucleotide and trinucleotide within a sequence to calculate entropy, sum entropy and maximum entropy to compose the same characteristics. Complex networks in turn retrate the sequences as a network through the occurring of the nucleotides, dinucleotides and trinucleotides within the same. Measures of methodologies are used in the classification methods such as SVM classifiers, MultiLayerPerceptron, J48, IBK, and NaiveBayes RandomForest, where similar results were obtained among the methods, showing little difference in favor of the complex networks, wherein RandomForest showed the best results with approximately 86 % accuracy, followed by J48 with 84 % and MultiLayerPerceptron with 82 %. The results indicate that by such feature extraction approach can achieve good classification levels considering the simplicity of the methods used since they are only genomic sequences without any further knowledge about them.-
Descrição: dc.descriptionNo âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherCornelio Procopio-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherTecnologia em Análise e Desenvolvimento de Sistemas-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsopenAccess-
Palavras-chave: dc.subjectBioinformática-
Palavras-chave: dc.subjectGenômica-
Palavras-chave: dc.subjectClassificação-
Palavras-chave: dc.subjectBioinformatics-
Palavras-chave: dc.subjectGenomics-
Palavras-chave: dc.subjectClassification-
Palavras-chave: dc.subjectCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO-
Título: dc.titleExtração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.