Avaliação do impacto de conjuntos de dados desbalanceadas em modelos de classificação para risco de crédito

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorBonat, Wagner Hugo, 1985--
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data-
Autor(es): dc.creatorFurriel, Wesley Oliveira-
Data de aceite: dc.date.accessioned2025-09-01T13:53:32Z-
Data de disponibilização: dc.date.available2025-09-01T13:53:32Z-
Data de envio: dc.date.issued2023-12-19-
Data de envio: dc.date.issued2023-12-19-
Data de envio: dc.date.issued2022-
Fonte completa do material: dc.identifierhttps://hdl.handle.net/1884/85723-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/85723-
Descrição: dc.descriptionOrientador: Prof. Wagner Hugo Bonat-
Descrição: dc.descriptionArtigo apresentado como Trabalho de Conclusão de Curso-
Descrição: dc.descriptionMonografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science e Big Data-
Descrição: dc.descriptionInclui referências-
Descrição: dc.descriptionResumo: Este trabalho teve como objetivo avaliar o desempenho de modelos de regressão e classificação binária em conjuntos de dados com diferentes níveis de desbalanceamento via oversampling e undersampling aleatório em um problema de risco de crédito. Os modelos de regressão logística, random forest, catboost e lgbm foram treinados e validados inicialmente pelas amostras obtidas pelo método Stratified K-Fold. Emseguida, foram avaliados em uma amostra com a distribuição original da variável resposta, permitindo uma comparação entre os resultados obtidos. Desse modo, observou-se, que não ocorreram ganhos relevantes ao alancear os conjuntos de dados, ainda assim, foram constatadas quedas nos valores de F1-Score e LogLoss para os balanceamentos de 50%. Além disso, para os experimentos com maior desbalanceamento, foram identificados maiores níveis de variabilidade entre as amostras de treinamento e assimetrias mais acentuadas na distribuição de probabilidade predita.-
Descrição: dc.descriptionAbstract: This study aimed to evaluate the performance of binary classification models on datasets with different levels of imbalance using oversampling and undersampling techniques in a credit risk problem. Themodels were initially trained and validated using samples fromthe Stratified K-Fold method. They were then evaluated on a sample with the original distribution of the response variable, allowing for a comparison of the results obtained. It was observed that there were no significant gains from balancing the response variable, only decreases in the values of F1-Score and LogLoss for the 50% balancing. Furthermore, for experiments with higher imbalance, higher levels of variability were identified among the training samples and more pronounced asymmetries in the predicted probability distribution.-
Formato: dc.format1 recurso online : PDF.-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Palavras-chave: dc.subjectAprendizado do computador-
Palavras-chave: dc.subjectAnalise de regressão-
Palavras-chave: dc.subjectAvaliação de riscos-
Título: dc.titleAvaliação do impacto de conjuntos de dados desbalanceadas em modelos de classificação para risco de crédito-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.