Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Raittz, Roberto Tadeu, 1966- | - |
Autor(es): dc.contributor | Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática | - |
Autor(es): dc.creator | Machado, Diogo de Jesus Soares | - |
Data de aceite: dc.date.accessioned | 2021-03-09T21:17:56Z | - |
Data de disponibilização: dc.date.available | 2021-03-09T21:17:56Z | - |
Data de envio: dc.date.issued | 2021-03-03 | - |
Data de envio: dc.date.issued | 2021-03-03 | - |
Data de envio: dc.date.issued | 2019 | - |
Fonte completa do material: dc.identifier | https://hdl.handle.net/1884/69573 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/1884/69573 | - |
Descrição: dc.description | Orientador: Prof. Dr. Roberto Tadeu Raittz | - |
Descrição: dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 19/06/2020 | - |
Descrição: dc.description | Inclui referências: p. 59-63 | - |
Descrição: dc.description | Resumo: A mineração de textos trata da obtenção de informação a partir do processamento de dados não estruturados, escritos em linguagem natural. A grande quantidade de conteúdo textual digitalizado disponível através da internet propiciou o interesse no desenvolvimento de técnicas envolvendo processamento de linguagem natural e aprendizado de máquina. Da mesma forma que ocorre com os textos também ocorre com dados de origem biológica. Os dados genômicos, proteômicos e transcriptômicos muitas vezes são disponibilizados na forma de arquivos FASTA, que são arquivos de texto com uma estrutura específica. Para trabalhar com esses dados foram desenvolvidas muitas ferramentas destinadas para bioinformática. A partir dessas observações, é válido supor a possibilidade de transformar textos escritos em linguagem natural para um formato baseado na representação de sequências biológicas, para propiciar a aplicação de ferramentas de bioinformática em estratégias de mineração de textos, ampliando o arsenal de recursos disponíveis para a área. Para possibilitar o avanço nessa abordagem, desenvolvemos um pacote em Python que chamamos de "BioTEX", que oferece recursos para codificar textos para um formato baseado na representação de sequências biológicas, além de outros módulos para auxiliar no processo de mineração de textos através da estratégia proposta. Apresentamos um estudo de caso em que obtivemos artigos do PubMed e aplicamos o BioTEX para gerar um dendrograma de palavras, com o qual demonstramos indícios da ascensão da pandemia do SARS-CoV-2 apenas utilizando textos escritos até outubro de 2019, ou seja, identificamos indícios de eventos presentes em literatura passada. Palavras-chave: Mineração de textos. Codificação de textos. Vetorização de textos. Bioinformática. | - |
Descrição: dc.description | Abstract: Text mining deals with obtaining information from the processing of unstructured data, written in natural language. The large amount of digitized textual content available over the internet has sparked interest in the development of techniques involving natural language processing and machine learning. As with texts, it also occurs with data of biological origin. Genomic, proteomic and transcriptomic data are often made available in the form of FASTA files, which are text files with a specific structure. To work with this data, many tools designed for Bioinformatics were developed. Based on these observations, it is valid to assume the possibility of transforming texts written in natural language into a format based on the representation of biological sequences, to provide the application of bioinformatics tools in text mining strategies, expanding the arsenal of resources available for the area. In order to advance this approach, we developed a Python package that we call "BioTEX", which offers resources to encode texts into a format based on the representation of biological sequences, in addition to other modules to assist in the text mining process through the strategy proposed. We present a case study in which we obtained articles from PubMed and applied BioTEX to generate a word dendrogram, with which we demonstrate evidence of the rise of the SARS-CoV-2 pandemic only using texts written until October 2019, that is, we identified evidence of events present in past literature. Keywords: Text mining. Text encoding. Text vectorization. Bioinformatics. | - |
Formato: dc.format | 65 p. : il. (algumas color). | - |
Formato: dc.format | application/pdf | - |
Formato: dc.format | application/pdf | - |
Palavras-chave: dc.subject | Mineração de dados (Computação) | - |
Palavras-chave: dc.subject | Bioinformática | - |
Título: dc.title | Biotex : mineração de textos inspirada em técnicas de bioinformática | - |
Aparece nas coleções: | Repositório Institucional - Rede Paraná Acervo |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: