Atenção: Todas as denúncias são sigilosas e sua identidade será preservada.
Os campos nome e e-mail são de preenchimento opcional
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Fabro, Marcos Didonet Del | - |
Autor(es): dc.contributor | Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática | - |
Autor(es): dc.creator | Ferri, Junior | - |
Data de aceite: dc.date.accessioned | 2019-08-21T23:16:09Z | - |
Data de disponibilização: dc.date.available | 2019-08-21T23:16:09Z | - |
Data de envio: dc.date.issued | 2018-01-29 | - |
Data de envio: dc.date.issued | 2018-01-29 | - |
Data de envio: dc.date.issued | 2016 | - |
Fonte completa do material: dc.identifier | http://hdl.handle.net/1884/46487 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/1884/46487 | - |
Descrição: dc.description | Orientador : Marcos Didonet Del Fabro | - |
Descrição: dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 29/08/2016 | - |
Descrição: dc.description | Inclui referências : f. 47-50 | - |
Descrição: dc.description | Área de concentração: Ciência da computação | - |
Descrição: dc.description | Resumo: As técnicas de extração de informações estão sempre evoluindo para serem capazes de trabalhar com a quantidade crescente de dados disponíveis através de textos em linguagem natural e não estruturados. Destacamos a subtarefa da extração de informação conhecida como reconhecimento de entidades nomeadas baseado em dicionário, que realiza a identificação de sequências de caracteres que representam entidades de um determinado grupo, e o bom desempenho dessa subtarefa é fundamental para um bom processo de extração de informação. O reconhecimento de entidades nomeadas (NER) permite definir os sujeitos que são abordados pelo texto como organizações, pessoas, locais, etc. Pontos que ainda são desafios dentro da subtarefa de NER para sistemas baseados em dicionário são a presença de erros ortográficos nos textos e a existência de poucos sistemas de NER capazes de trabalhar em diferentes contextos. Esse trabalho apresenta uma abordagem para o reconhecimento de entidades nomeadas baseado em dicionário. Para trabalhar com textos que podem apresentar erros ortográficos, é utilizada uma busca por associação aproximada baseada na distância de edição entre as sequências de caracteres que representam a entrada do dicionário e as sub-partes do texto. Para promover a redução do erro entre as sequências de caracteres (SC) e facilitar a busca por associação aproximada são utilizados algoritmos de transformação. Esses algoritmos permitem a busca sobre o dicionário encontrar uma quantidade maior de entidades se comparada com as buscas utilizando as SCs originais para um mesmo valor da distância de edição aceita. As transformações também colaboram com a redução do tamanho das SCs e com a criação de mais prefixos similares, promovendo uma redução no tamanho da árvore de prefixo que indexa o dicionário. Para melhorar a precisão da nossa abordagem, disponibilizamos recursos de filtragem que fazem uso de métricas de similaridade para eliminar entidades falsas que foram retornadas da busca sobre o dicionário. Nossa abordagem também foi projetada para permitir a configuração de alguns componentes de forma a ser adaptada para diferentes casos de estudo. Palavras-chave: Reconhecimento de entidades nomeadas, Associação Aproximada de Sequências de Caracteres, Conversão fonética. | - |
Descrição: dc.description | Abstract: The information extraction techniques are always evolving to be able to work with the increasing amount of unstructured data available through texts in natural language. We highlight the information extraction subtask known as dictionary-based named entity recognition, which performs the identification of strings that represent entities of a particular group, and the good performance of this sub-task is critical for a good extracting information process. The named entity recognition (NER) defines the nouns that are covered by the text as organizations, people, places, etc. Some subjects that still represent chalenges in the sub-task of NER for currently systems that are dictionary-based are the presence of spelling errors in the text and the existence of few NER systems that are able to work in different contexts. This work presents an approach of a dictionary-based named entity recognition. Looking to work with texts that may have spelling errors, we use an approximate string matching search based on edit distance between the strings that represent the entries of the dictionary and the substrings of the text. To further the reduction of the error between the strings and facilitate the search using approximate matching we used transformation algorithms. These algorithms allow the search on the dictionary find a greater amount of entities if compared with the search using the original strings, for the same value of Edit Distance. Transformations also promote the strings size reduction and create more similar prefixes, promoting a reduction in the size of the prefix tree (trie) that indexes the dictionary. To improve the precision of our approach, we provide filtering capabilities that make use of similarity metrics to eliminate false entities that have been returned from the search on the dictionary trie. Our approach is also designed to enable the configuration of some components to be adapted to different study cases. Keywords: Named entity recognition, Approximate string matching, Phonetic conversion. | - |
Formato: dc.format | 50 f. : il., algumas color., tabs., grafs. | - |
Formato: dc.format | application/pdf | - |
Formato: dc.format | application/pdf | - |
Relação: dc.relation | Disponível em formato digital | - |
Palavras-chave: dc.subject | Ciência da computação | - |
Palavras-chave: dc.subject | Processamento eletronico de dados | - |
Palavras-chave: dc.subject | Sistemas eletronicos | - |
Palavras-chave: dc.subject | Teses | - |
Título: dc.title | Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada | - |
Tipo de arquivo: dc.type | livro digital | - |
Aparece nas coleções: | Repositório Institucional - Rede Paraná Acervo |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: