Um método complementar ao processo de sanitização de registros duplicados em bases de dados Cadsus-multiplataforma

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorSunye, Marcos Sfair, 1964--
Autor(es): dc.contributorMuller Junior, Bruno-
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática-
Autor(es): dc.creatorCavalieri, Osvaldo Marcio-
Data de aceite: dc.date.accessioned2019-08-22T00:08:01Z-
Data de disponibilização: dc.date.available2019-08-22T00:08:01Z-
Data de envio: dc.date.issued2014-10-13-
Data de envio: dc.date.issued2014-10-13-
Data de envio: dc.date.issued2014-
Fonte completa do material: dc.identifierhttp://hdl.handle.net/1884/36297-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/36297-
Descrição: dc.descriptionOrientador : Prof. Dr. Marcos Sfair Sunye-
Descrição: dc.descriptionCo-orientador : Prof. Dr. Bruno Müller Junior-
Descrição: dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 17/07/2014-
Descrição: dc.descriptionInclui referências-
Descrição: dc.descriptionResumo: Diante o recente crescimento no volume de dados e queda dos preços de armazenamento, dados duplicados poderiam não representar problemas, apenas uso desnecessário de recursos. Porém, dependendo do contexto, por exemplo, na área da saúde, registros duplicados devem ser evitados pois podem causar sérios danos. Entre os aplicativos utilizados na gestão do Sistema Único de Saúde (SUS), o aplicativo CADSUS-multiplataforma, entre seus objetivos, visa evitar que existam cadastros de usuários duplicados, porém, este objetivo não é de todo cumprido. Este trabalho contextualiza o problema da duplicação na área da saúde, apresenta conceitos sobre qualidade de dados, descreve de maneira geral algumas ferramentas para deduplicação (identificação de duplicidades) e apresenta um processo de deduplicação e a aplicação destes numa base de dados CADSUS-multiplataforma. O processo utilizado segue o modelo proposto por Peter Christen, para auxiliar a execução é utilizada a ferramenta FEBRL - Freely Extensible Biomedical Record Linkage que o suporta, ainda, foram analisados cadastros reais de uma base de dados CADSUS de um município. O trabalho resultou na análise de 238.691 cadastros, destes 13,98% foram classificados como duplicidades efetivas e 0,40% como possíveis duplos. Dado o tempo para execução da deduplicação, aproximadamente 37 horas, o alto número de duplicidades encontradas, 33.368, e considerando a pequena quantidade de possíveis duplos, 973 cadastros, e ainda, o procedimento para eliminar as duplicidades no CADSUS, que deve ser feito manualmente, cadastro a cadastro, a utilização do processo de deduplicação para detectar os similares pode ser considerada viável, pois, sem aquele, a identificação dos cadastros similares também teria que ser manual, tornando o processo possivelmente impraticável.-
Descrição: dc.descriptionAbstract: Facing the recent growth in data volume and decreasing on the prices of storage, duplicate data may not represent problems, maybe only and unnecessary use of resources. However, depending on the context, e.g. in health, duplicate records should be avoided because it can cause serious damage. Among the applications used in the management of the Unified Health System (SUS), the CADSUS-multiplataforma aims, among other objectives, avoid duplicate user entries, but, this is not completely fulfilled.This work contextualizes the problem of duplication in health, presents concepts on data quality, describes some tools for deduplication (identification of duplicates) and expose a deduplication process and its application in CADSUS data base. To analyze real entries of a CADSUS municipal data base, the process described on this document follows the model proposed by Peter Christen. To assist the implementation of the model, the FEBRL - Freely Extensible Biomedical Record Linkage tool was used. From the analysis of 238.691 entries, 13,98% of them were classified as effective duplicates and 0,40 % as possible duplicates. Given the time for implementing deduplication , approximately 37 hours, the great amount of duplicates (33.368), and considering the small amount of possible duplicates (973 entries) even considering the procedure to eliminate duplications in CADSUS - which must be done manually, entry by entry - the use of the deduplication process to detect the alike can be considered viable. Without identification of similar entries, this process also have to be performed manually, possibly making the process impossible to be done.-
Formato: dc.format84f. : il., grafs., tabs.-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Relação: dc.relationDisponível em formato digital-
Palavras-chave: dc.subjectSistemas de reconhecimento de padrões-
Palavras-chave: dc.subjectDissertações-
Palavras-chave: dc.subjectCiência da computação-
Título: dc.titleUm método complementar ao processo de sanitização de registros duplicados em bases de dados Cadsus-multiplataforma-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.