
Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
| Metadados | Descrição | Idioma |
|---|---|---|
| Autor(es): dc.contributor | Pereira, Denilson Alves | - |
| Autor(es): dc.contributor | Pereira, Denilson Alves | - |
| Autor(es): dc.contributor | Pereira Júnior, Álvaro Rodrigues | - |
| Autor(es): dc.contributor | Rosa, Thierson Couto | - |
| Autor(es): dc.creator | Silva, João Antônio da | - |
| Data de aceite: dc.date.accessioned | 2026-02-09T11:31:06Z | - |
| Data de disponibilização: dc.date.available | 2026-02-09T11:31:06Z | - |
| Data de envio: dc.date.issued | 2017-05-09 | - |
| Data de envio: dc.date.issued | 2017-05-09 | - |
| Data de envio: dc.date.issued | 2017-05-08 | - |
| Data de envio: dc.date.issued | 2017-02-22 | - |
| Fonte completa do material: dc.identifier | https://repositorio.ufla.br/handle/1/12853 | - |
| Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/1142021 | - |
| Descrição: dc.description | Several Web applications maintain data repositories containing references to thousands of realworld entities originating from multiple sources, and they continually receive new data. Identifying the distinct entities and associating the correct references to each one is a problem known as entity resolution. The challenge is to solve the problem incrementally, as the data arrive, especially when those data are described by a single textual attribute. In this work, we propose a approach for incremental entity resolution. Unlike traditional approaches, the method we implemented, called AssocIER, uses an ensemble of multiclass classifiers with self-training and detection of novel classes to incrementally group entity references. Self-training allows the learning model to be automatically updated during the prediction phase, and the novel class detection mechanism allows the identification of records of unknown classes in the training time. Our main classifier is based on a restricted case of association rules, which can be implemented efficiently. We evaluated our method in various real-world datasets and scenarios, comparing it with a traditional entity resolution approach. The results show that AssocIER is effective and efficient to solve unstructured data in collections with a very large number of entities and features, and is able to detect hundreds of novel classes. We found that AssocIER can greatly improve the performance of resolving product data, which is a weakness of the baseline, achieving gains of 149% in effectiveness and being up to 385 times faster in the prediction phase. The results also show that it is important to incorporate new data into the learning model, especially for datasets with fewer records per class. Furthermore, our method behaves well in scenarios of scarce availability of examples for training, being able to run even with no training data. | - |
| Descrição: dc.description | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | - |
| Descrição: dc.description | Diversas aplicações Web mantêm repositórios de dados com referências a milhares de entidades do mundo real. Esses dados têm origem em diversas fontes e novos dados continuamente são agregados a esses repositórios. Identificar o conjunto de entidades distintas e associar as referências corretamente a cada entidade é um problema conhecido como resolução de entidades. Atualmente, um desafio é resolver esse problema incrementalmente, à medida que novos dados se tornam disponíveis, especialmente quando os registros de dados são descritos por um único atributo textual. Neste trabalho, é proposta uma abordagem incremental para resolução de entidades. Diferente de abordagens tradicionais o método implementado, denominado AssocIER, usa um ensemble de classificadores multiclasses com auto treinamento e detecção de novas classes para incrementalmente agrupar referências à mesma entidade. O auto treinamento da abordagem permite a atualização automática do modelo de aprendizagem na fase de predição, enquanto o mecanismo de detecção de novas classes permite a identificação de registros de classes desconhecidas em tempo de treinamento. O principal classificador no ensemble é um caso particular de classificador associativo, que pode ser implementado eficientemente. A abordagem proposta foi avaliada em várias bases de dados reais e diferentes cenários, e foi comparada com uma abordagem tradicional para a resolução de entidades. Os resultados obtidos mostram que o AssocIER é efetivo e eficiente na solução de entidades cujos dados são não estruturados e na presença de um número muito alto de entidades reais distintas, sendo capaz de identificar centenas de novas classes. Os resultados também mostram que o AssocIER pode melhorar muito a performance em base de dados cujos registros são ofertas de produtos, tipo de dados que o baseline não apresenta bons resultados. Nesse caso, os resultados obtidos chegam a ser 149% mais efetivos e chega a ser 385 vezes mais rápido na fase de predição. Os resultados ainda demostram a importância da incorporação de novos dados no modelo de aprendizagem, principalmente quando a base de dados contém poucos registros por classe. Ademais, a abordagem proposta apresenta bom comportamento quando poucos registros estão disponíveis para a geração de uma solução inicial, sendo mesmo possível sua execução sem nenhum dado de treinamento, caso em que o modelo de aprendizagem é totalmente gerado incrementalmente na fase de teste. | - |
| Formato: dc.format | application/pdf | - |
| Idioma: dc.language | pt_BR | - |
| Publicador: dc.publisher | Universidade Federal de Lavras | - |
| Publicador: dc.publisher | Programa de Pós-Graduação em Ciência da Computação | - |
| Publicador: dc.publisher | UFLA | - |
| Publicador: dc.publisher | brasil | - |
| Publicador: dc.publisher | Departamento de Ciência da Computação | - |
| Direitos: dc.rights | acesso aberto | - |
| Palavras-chave: dc.subject | Resolução de entidades | - |
| Palavras-chave: dc.subject | Classificação associativa | - |
| Palavras-chave: dc.subject | Aprendizagem incremental | - |
| Palavras-chave: dc.subject | Entity resolution | - |
| Palavras-chave: dc.subject | Associative classification | - |
| Palavras-chave: dc.subject | Incremental learning | - |
| Palavras-chave: dc.subject | Ciência da Computação | - |
| Título: dc.title | Uma abordagem incremental para resolução de entidades descritas por dados textuais curtos | - |
| Título: dc.title | An incremental entity resolution approach for short textual data | - |
| Tipo de arquivo: dc.type | dissertação | - |
| Aparece nas coleções: | Repositório Institucional da Universidade Federal de Lavras (RIUFLA) | |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: