Um framework para análise do impacto de dados incompletos em modelos preditivos

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorAlmeida, Eduardo Cunha de, 1977--
Autor(es): dc.contributorBonat, Wagner Hugo, 1985--
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática-
Autor(es): dc.creatorSantore, Fabiola, 1994--
Data de aceite: dc.date.accessioned2021-03-09T21:14:16Z-
Data de disponibilização: dc.date.available2021-03-09T21:14:16Z-
Data de envio: dc.date.issued2021-01-10-
Data de envio: dc.date.issued2021-01-10-
Data de envio: dc.date.issued2019-
Fonte completa do material: dc.identifierhttps://hdl.handle.net/1884/69243-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/69243-
Descrição: dc.descriptionOrientador: Prof. Dr. Eduardo Cunha de Almeida-
Descrição: dc.descriptionCoorientador: Prof. Dr. Wagner Hugo Bonat-
Descrição: dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 20/08/2020-
Descrição: dc.descriptionInclui referências: p.38-42-
Descrição: dc.descriptionÁrea de concentração: Ciência da Computação-
Descrição: dc.descriptionResumo A qualidade dos dados e fundamental no suporte a sistemas centrados em dados, rotinas de aprendizagem de maquinas e modelos preditivos. A pesquisa sobre a qualidade dos dados visa definir, identificar e reparar as inconsistencias nos dados. Uma fonte comum de inconsistencias sao os dados incompletos, representado por valores ausentes, que sao aqueles registros que nao foram observados ou armazenados por alguma razao, mas para os quais existe um valor real no ambiente em que pertencem. Esse tipo de problema potencialmente esconde informacoes importantes sobre o conjunto de dados e impacta na aplicacao em que sera utilizado. A qualidade das variaveis de entrada e saida tem sido negligenciada na proposicao de novos modelos preditivos, embora a popularidade da analise preditiva utilizando ferramentas de aprendizagem de maquina tenha aumentado. Como consequencia, o efeito de dados incompletos em muitos modelos preditivos padrao e completamente desconhecido. Sendo assim, propomos um framework estocastico para avaliar o impacto de dados incompletos no desempenho dos modelos de preditivos. O framework permite o controle total de aspectos importantes da estrutura do conjunto de dados, tais como a quantidade e o tipo das variaveis de entrada, a correlacao entre as variaveis de entrada e seu poder de previsao geral, e o tamanho da amostra. O mecanismo gerador de dados incompletos e aplicado a partir de uma distribuicao multivariada Bernoulli, o que nos permite simular valores ausentes gerados a partir de diferentes variacoes do mecanismo MCAR (Missing Completely at Random). Embora o framework possa ser aplicado a diversos tipos de modelos preditivos, neste trabalho, nos concentramos no modelo de regressao logistica e escolhemos a acuracia como medida preditiva. Os resultados da simulacao mostram que os efeitos dos dados incompletos desaparecem para grandes tamanhos de amostra, como esperado. Por outro lado, a medida que o numero de variaveis de entrada aumenta, a acuracia diminui principalmente para entradas binarias. Em relacao ao mecanismo gerador de dados incompletos, as variacoes de MCAR tem diferentes impactos sobre a acuracia do modelo. Entretanto, o efeito depende de outras caracteristicas do conjunto de dados, tais como tamanho da amostra e a quantidade de variaveis de entrada. Tambem discutimos alguns resultados interessantes sobre o impacto de dados incompletos sobre o poder preditivo das variaveis de entrada. Palavras-chave: Dados Incompletos, Modelos Preditivos, Simulacao de Dados, Regressao Logistica, Analise Estatistica, Qualidade de Dados-
Descrição: dc.descriptionAbstract The quality of data is key in supporting data-centric systems, machine learning routines, and predictive models. Research on data quality aims to define, identify, and repair inconsistencies in the data. A common source of inconsistency is missing data, in which no data is stored for the variable in an observation, which potentially hides important information. The quality of the input and output variables have been neglected on the proposition of new predictive models, although the popularity of predictive analysis using machine learning tools has been increasing. As a consequence, the effect of missing data in many of the standard predictive models is completely unknown. We propose a stochastic framework to evaluate the impact of missing data on the performance of predictive models. The framework allows full control of important aspects of the data set structure such as the number and type of the input variables, the correlation between the input variables and their general predictive power, and sample size. The missing process is generated from a multivariate Bernoulli distribution, which allows us to simulate missing patterns corresponding to different levels of disturbance of the MCAR (Missing Completely at Random) mechanism. Although the framework may be applied to virtually all types of predictive models, in this article, we focus on the logistic regression model and choose the accuracy as the predictive measure. The simulation results show that the effects of missing data disappear for large sample sizes, as expected. On the other hand, as the number of input variables increases, the accuracy decreases mainly for binary inputs. With respect to mechanism that generate missing data, the levels of disturbance of MCAR has different impact on model accuracy. However, the effect depends on other characteristics of the data set, such as sample size and number of input variables. We also discuss some interesting results on the impact of incomplete data on the predictive power of input variables. Keywords: Missing Data, Predictive Model, Data Simulation, Logistic Regression, Statistical Analysis, Data Quality-
Formato: dc.format62 p. : il. (algumas color.).-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Palavras-chave: dc.subjectProcessamento de dados-
Palavras-chave: dc.subjectCiência da Computação-
Título: dc.titleUm framework para análise do impacto de dados incompletos em modelos preditivos-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.