Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Fávero, Eliane Maria De Bortoli | - |
Autor(es): dc.contributor | Fávero, Eliane Maria De Bortoli | - |
Autor(es): dc.contributor | Casanova, Dalcimar | - |
Autor(es): dc.contributor | Ascari, Rúbia Eliza de Oliveira Schultz | - |
Autor(es): dc.creator | Recuero Junior, Max Humberto | - |
Data de aceite: dc.date.accessioned | 2025-08-29T11:52:29Z | - |
Data de disponibilização: dc.date.available | 2025-08-29T11:52:29Z | - |
Data de envio: dc.date.issued | 2023-07-06 | - |
Data de envio: dc.date.issued | 2023-07-06 | - |
Data de envio: dc.date.issued | 2023-06-21 | - |
Fonte completa do material: dc.identifier | http://repositorio.utfpr.edu.br/jspui/handle/1/31679 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/1084841 | - |
Descrição: dc.description | Applications of Natural Language Processing (NLP) mostly require large volumes of data. This is necessary in order to develop a robust application, typically based on machine learning algorithms. Much of the research in this field relies on specific and curated databases created by the authors themselves, which rarely reach the volume required by machine learning aplications. With the aim of providing a textual database in Brazilian Portuguese for the Software Engineering field, this work presents the process of automatic data retrieval and processing, extracted from questions and answers on the popular portal Stack Overflow, widely used by members of the field. Therefore, this work encompasses concepts of web crawling and web scraping, tools used to extract data from the internet, as well as preprocessing methods for the extracted texts using NLP techniques. Preprocessing is important because this type of data often contains HTML language characteristics and a wide range of irregular data, but the goal is to maintain the originality and coherence of the sentences, allowing future research to consistently utilize this database for various NLP tasks. The results present the approach used, its characteristics, and the challenges encountered. Finally, the generated database is presented, highlighting its main features. | - |
Descrição: dc.description | Aplicações de Processamento de Linguagem Natural (PLN), em sua maioria, requisitam grandes volumes de dados. Isso é necessário para que que seja possível gerar uma aplicação consistente, o que normalmente é obtido por meio de métodos de aprendizado de máquina. Grande parte das pesquisas nessa área apresentam bases de dados específicas e elaboradas pelos próprios autores, o que dificilmente atinge o volume necessário para que aplicações de aprendizagem de máquina obtenham um resultado satisfatório. Visando disponibilizar uma base de dados textuais em Português brasileiro, para a área de Engenharia de Software, este trabalho apresenta o processo de obtenção automática e tratamento de dados textuais, extraídos de perguntas e respostas contidas no portal Stack Overflow, bastante popular entre os membros da área. Sendo assim, esse trabalho aborda conceitos de web crawler e web scrapper, ferramentas utilizadas para extrair dados da Internet, e também métodos de pré-processamento dos textos extraídos, aplicando técnicas de PLN. O pré-processamento se faz importante, pois esse tipo de dado possui diversas características de linguagem HTML e uma grande variabilidade de dados considerados estranhos, porém busca-se manter a originalidade e coêrencia das sentenças, para que futuras pesquisas possam utilizar-se dessa base em diversas tarefas de PLN de forma consistente. Os resultados apresentam a abordagem utilizada, características e dificuldades encontradas. Por fim, é apresentada a base de dados gerada com destaque para suas principais características. | - |
Formato: dc.format | application/pdf | - |
Idioma: dc.language | pt_BR | - |
Publicador: dc.publisher | Universidade Tecnológica Federal do Paraná | - |
Publicador: dc.publisher | Pato Branco | - |
Publicador: dc.publisher | Brasil | - |
Publicador: dc.publisher | Departamento Acadêmico de Informática | - |
Publicador: dc.publisher | Engenharia de Computação | - |
Publicador: dc.publisher | UTFPR | - |
Direitos: dc.rights | openAccess | - |
Direitos: dc.rights | http://creativecommons.org/licenses/by/4.0/ | - |
Palavras-chave: dc.subject | Textos | - |
Palavras-chave: dc.subject | Processamento de textos (Computação) | - |
Palavras-chave: dc.subject | Sistemas de informação geográfica | - |
Palavras-chave: dc.subject | Visualização da informação | - |
Palavras-chave: dc.subject | Sistemas de coleta automática de dados | - |
Palavras-chave: dc.subject | Texts | - |
Palavras-chave: dc.subject | Text processing (Computer science) | - |
Palavras-chave: dc.subject | Geographic information systems | - |
Palavras-chave: dc.subject | Information visualization | - |
Palavras-chave: dc.subject | Automatic data collection systems | - |
Palavras-chave: dc.subject | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | - |
Título: dc.title | Uma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software | - |
Título: dc.title | A textual database on portuguese language to natural language processing aplications on software engineering | - |
Tipo de arquivo: dc.type | livro digital | - |
Aparece nas coleções: | Repositorio Institucional da UTFPR - RIUT |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: