Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Murta, Vanessa Braganholo | - |
Autor(es): dc.contributor | Oliveira, Daniel Cardoso Moraes de | - |
Autor(es): dc.contributor | Bêdo, Marcos Vinicius Naves | - |
Autor(es): dc.creator | Souza, Luam Silva de | - |
Data de aceite: dc.date.accessioned | 2024-07-11T17:57:46Z | - |
Data de disponibilização: dc.date.available | 2024-07-11T17:57:46Z | - |
Data de envio: dc.date.issued | 2023-09-22 | - |
Data de envio: dc.date.issued | 2023-09-22 | - |
Fonte completa do material: dc.identifier | http://app.uff.br/riuff/handle/1/30537 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/760950 | - |
Descrição: dc.description | O avanço tecnológico das últimas décadas fez com que computadores, sistemas, celulares, wearables e outras mais aplicações estivessem cada vez mais presentes no cotidiano das pessoas. A partir dessa gama de aplicações, um enorme volume de dados é gerado. Neste contexto surge a Ciência de Dados, uma área que tem como objetivo estudar esses dados, que podem ser oriundos de diversos campos, e gerar conhecimento utilizando técnicas de Estatística, Aprendizado de Máquina e Visualização de Dados. Poucos trabalhos da literatura estudam as características da área. Este trabalho utiliza técnicas de análise de dados e mineração de repositórios para entender as práticas e características de projetos do campo de Ciência de Dados. Para isso criamos o DS Mining, uma aplicação que realiza, em larga escala, a coleta, filtragem, extração e análise de projetos públicos de Ciência de Dados disponíveis no site GitHub. Entre março e junho de 2023, o DS Mining coletou 327.016 repositórios do GitHub e analisou 166.867 deles. Com a análise, descobrimos que o número de projetos de Ciência de Dados no Github cresceu 2.210,68% nos últimos 5 anos e que a linguagem de programação mais popular é Python que, por sua vez, tem numpy, pandas, matplotlib e sklearn como módulos mais utilizados | - |
Descrição: dc.description | Technological advances in recent decades have made computers, systems, cell phones, wearables and other applications increasingly present in people’s daily lives. A huge data volume is generated from a range of applications. Within this context, Data Science emerges, an area that aims to study data from different fields, and to generate knowledge using Statistics, Machine Learning and Data Visualization techniques. Few works in the literature study the characteristics of the area. This study uses data analysis and repository mining techniques to understand the practices and characteristics of such projects. In particular, we have created DS Mining to study the problem, an application that performs, on a large scale, the collection, filtering, extraction and analysis of public Data Science projects available on the GitHub website. DS Mining collected 327,016 repositories from GitHub and analyzed 166,867 of them between March and June of 2023, . The analysis revealed that the number of Data Science projects on Github has grown by 2,210.68% in the last 5 years and that the most popular programming language is Python, which has numpy, pandas, matplotlib and sklearn as its most used modules | - |
Descrição: dc.description | 83 p. | - |
Formato: dc.format | application/pdf | - |
Idioma: dc.language | pt_BR | - |
Direitos: dc.rights | Open Access | - |
Direitos: dc.rights | CC-BY-SA | - |
Palavras-chave: dc.subject | Dados | - |
Palavras-chave: dc.subject | Ciência de dados | - |
Palavras-chave: dc.subject | Mineração de repositórios | - |
Palavras-chave: dc.subject | GitHub | - |
Palavras-chave: dc.subject | Mineração de dados (Computação) | - |
Palavras-chave: dc.subject | Ciência de dados | - |
Palavras-chave: dc.subject | Software | - |
Palavras-chave: dc.subject | Data | - |
Palavras-chave: dc.subject | Data science | - |
Palavras-chave: dc.subject | Repository mining | - |
Título: dc.title | Análise em larga escala de projetos de ciência de dados open-source | - |
Tipo de arquivo: dc.type | Trabalho de conclusão de curso | - |
Aparece nas coleções: | Repositório Institucional da Universidade Federal Fluminense - RiUFF |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: