Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Sunye, Marcos Sfair, 1964- | - |
Autor(es): dc.contributor | Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática | - |
Autor(es): dc.creator | Martinhago, Adriana Zanella | - |
Data de aceite: dc.date.accessioned | 2025-09-01T11:14:24Z | - |
Data de disponibilização: dc.date.available | 2025-09-01T11:14:24Z | - |
Data de envio: dc.date.issued | 2024-10-18 | - |
Data de envio: dc.date.issued | 2024-10-18 | - |
Data de envio: dc.date.issued | 2006 | - |
Fonte completa do material: dc.identifier | https://hdl.handle.net/1884/4797 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/1884/4797 | - |
Descrição: dc.description | Orientador: Marcos Sfair Sunye | - |
Descrição: dc.description | Inclui apêndices | - |
Descrição: dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 2006. | - |
Descrição: dc.description | Inclui bibliografia | - |
Descrição: dc.description | Resumo: A qualidade de dados é um tema que cresce em importância a medida que aumentam em número e volume as bases de dados existentes. Entre os seus principais desafios está a deduplicação, que busca reduzir a existência de registros distintos na base que representam a mesma entidade do mundo real. Outro desafio igualmente importante é o desempenho,visto que o problema envolve a comparação entre milhões de registros. O ambiente FEBRL foi desenvolvido com o objetivo de apoiar as tarefas de duplicação usando paralelismo. Este trabalho apresenta um estudo do ambiente FEBRL e as adaptações que foram feitas neste ambiente para que trabalhasse corretamente com conjunto de dados brasileiros, pois ele está padronizado para ser usado em conjunto de dados australianos. Devido a importância do paralelismo no processo de deduplicação de registros, é apresentado também neste trabalho o funcionamento do paralelismo no ambiente FEBRL e alguns problemas encontrados. | - |
Descrição: dc.description | Abstract: The data quality is a theme that becomes more important as long as the quantity and volume of the extand databases increase. Among its major challenges is the deduplicate, which seeks for reduction of the distinct records in the base, but represents the same entity of the real world. Another challenge as important as the first one is the performance, since the problem involves the comparison between bases with millions of the records. The FEBRL environment was developed with the purpose of supporting the deduplicate tasks using parallelism. This research presents a study about the FEBRL environment and the adaptation that was made in this environment to make it work properly together with Brazilians data sets, because it is standardized to be used with Australians data sets. And due to the importance of the parallelism in the deduplicate process of the records, we also decided to present in this research the functioning of the parallelism in the FEBRL environment and the problems that were found. | - |
Formato: dc.format | vii, 71f. : il., tabs. | - |
Formato: dc.format | application/pdf | - |
Formato: dc.format | application/pdf | - |
Relação: dc.relation | Disponível em formato digital | - |
Palavras-chave: dc.subject | Informática | - |
Palavras-chave: dc.subject | Tecnologia da informação | - |
Palavras-chave: dc.subject | Qualidade | - |
Palavras-chave: dc.subject | Recuperação de dados (Computação) | - |
Palavras-chave: dc.subject | Ciencia da computação | - |
Título: dc.title | Customização em ambientes de qualidade de dados | - |
Tipo de arquivo: dc.type | livro digital | - |
Aparece nas coleções: | Repositório Institucional - Rede Paraná Acervo |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: