Uma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorFávero, Eliane Maria De Bortoli-
Autor(es): dc.contributorFávero, Eliane Maria De Bortoli-
Autor(es): dc.contributorCasanova, Dalcimar-
Autor(es): dc.contributorAscari, Rúbia Eliza de Oliveira Schultz-
Autor(es): dc.creatorRecuero Junior, Max Humberto-
Data de aceite: dc.date.accessioned2025-08-29T11:52:29Z-
Data de disponibilização: dc.date.available2025-08-29T11:52:29Z-
Data de envio: dc.date.issued2023-07-06-
Data de envio: dc.date.issued2023-07-06-
Data de envio: dc.date.issued2023-06-21-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/31679-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1084841-
Descrição: dc.descriptionApplications of Natural Language Processing (NLP) mostly require large volumes of data. This is necessary in order to develop a robust application, typically based on machine learning algorithms. Much of the research in this field relies on specific and curated databases created by the authors themselves, which rarely reach the volume required by machine learning aplications. With the aim of providing a textual database in Brazilian Portuguese for the Software Engineering field, this work presents the process of automatic data retrieval and processing, extracted from questions and answers on the popular portal Stack Overflow, widely used by members of the field. Therefore, this work encompasses concepts of web crawling and web scraping, tools used to extract data from the internet, as well as preprocessing methods for the extracted texts using NLP techniques. Preprocessing is important because this type of data often contains HTML language characteristics and a wide range of irregular data, but the goal is to maintain the originality and coherence of the sentences, allowing future research to consistently utilize this database for various NLP tasks. The results present the approach used, its characteristics, and the challenges encountered. Finally, the generated database is presented, highlighting its main features.-
Descrição: dc.descriptionAplicações de Processamento de Linguagem Natural (PLN), em sua maioria, requisitam grandes volumes de dados. Isso é necessário para que que seja possível gerar uma aplicação consistente, o que normalmente é obtido por meio de métodos de aprendizado de máquina. Grande parte das pesquisas nessa área apresentam bases de dados específicas e elaboradas pelos próprios autores, o que dificilmente atinge o volume necessário para que aplicações de aprendizagem de máquina obtenham um resultado satisfatório. Visando disponibilizar uma base de dados textuais em Português brasileiro, para a área de Engenharia de Software, este trabalho apresenta o processo de obtenção automática e tratamento de dados textuais, extraídos de perguntas e respostas contidas no portal Stack Overflow, bastante popular entre os membros da área. Sendo assim, esse trabalho aborda conceitos de web crawler e web scrapper, ferramentas utilizadas para extrair dados da Internet, e também métodos de pré-processamento dos textos extraídos, aplicando técnicas de PLN. O pré-processamento se faz importante, pois esse tipo de dado possui diversas características de linguagem HTML e uma grande variabilidade de dados considerados estranhos, porém busca-se manter a originalidade e coêrencia das sentenças, para que futuras pesquisas possam utilizar-se dessa base em diversas tarefas de PLN de forma consistente. Os resultados apresentam a abordagem utilizada, características e dificuldades encontradas. Por fim, é apresentada a base de dados gerada com destaque para suas principais características.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherPato Branco-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherDepartamento Acadêmico de Informática-
Publicador: dc.publisherEngenharia de Computação-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsopenAccess-
Direitos: dc.rightshttp://creativecommons.org/licenses/by/4.0/-
Palavras-chave: dc.subjectTextos-
Palavras-chave: dc.subjectProcessamento de textos (Computação)-
Palavras-chave: dc.subjectSistemas de informação geográfica-
Palavras-chave: dc.subjectVisualização da informação-
Palavras-chave: dc.subjectSistemas de coleta automática de dados-
Palavras-chave: dc.subjectTexts-
Palavras-chave: dc.subjectText processing (Computer science)-
Palavras-chave: dc.subjectGeographic information systems-
Palavras-chave: dc.subjectInformation visualization-
Palavras-chave: dc.subjectAutomatic data collection systems-
Palavras-chave: dc.subjectCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO-
Título: dc.titleUma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software-
Título: dc.titleA textual database on portuguese language to natural language processing aplications on software engineering-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.