Análise em larga escala de projetos de ciência de dados open-source

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorMurta, Vanessa Braganholo-
Autor(es): dc.contributorOliveira, Daniel Cardoso Moraes de-
Autor(es): dc.contributorBêdo, Marcos Vinicius Naves-
Autor(es): dc.creatorSouza, Luam Silva de-
Data de aceite: dc.date.accessioned2024-07-11T17:57:46Z-
Data de disponibilização: dc.date.available2024-07-11T17:57:46Z-
Data de envio: dc.date.issued2023-09-22-
Data de envio: dc.date.issued2023-09-22-
Fonte completa do material: dc.identifierhttp://app.uff.br/riuff/handle/1/30537-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/760950-
Descrição: dc.descriptionO avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizados-
Descrição: dc.descriptionTechnological advances in recent decades have made computers, systems, cell phones, wearables and other applications increasingly present in people’s daily lives. A huge data volume is generated from a range of applications. Within this context, Data Science emerges, an area that aims to study data from different fields, and to generate knowledge using Statistics, Machine Learning and Data Visualization techniques. Few works in the literature study the characteristics of the area. This study uses data analysis and repository mining techniques to understand the practices and characteristics of such projects. In particular, we have created DS Mining to study the problem, an application that performs, on a large scale, the collection, filtering, extraction and analysis of public Data Science projects available on the GitHub website. DS Mining collected 327,016 repositories from GitHub and analyzed 166,867 of them between March and June of 2023, . The analysis revealed that the number of Data Science projects on Github has grown by 2,210.68% in the last 5 years and that the most popular programming language is Python, which has numpy, pandas, matplotlib and sklearn as its most used modules-
Descrição: dc.description83 p.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectDados-
Palavras-chave: dc.subjectCiência de dados-
Palavras-chave: dc.subjectMineração de repositórios-
Palavras-chave: dc.subjectGitHub-
Palavras-chave: dc.subjectMineração de dados (Computação)-
Palavras-chave: dc.subjectCiência de dados-
Palavras-chave: dc.subjectSoftware-
Palavras-chave: dc.subjectData-
Palavras-chave: dc.subjectData science-
Palavras-chave: dc.subjectRepository mining-
Título: dc.titleAnálise em larga escala de projetos de ciência de dados open-source-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.