SE³M : um modelo para estimativa de esforço de software a partir de requisitos textuais aplicando modelos de embeddings pré-treinados contextualizados

Fávero, Eliane Maria de Bortoli

Portal eduCapes
Seta
Nossos Parceiros
Seta
Repositório Institucional - Rede Paraná Acervo
Seta

SE³M : um modelo para estimativa de esforço de software a partir de requisitos textuais aplicando modelos de embeddings pré-treinados contextualizados

Use este link compartilhar ou citar este material: http://educapes.capes.gov.br/handle/1884/69194

Registro completo de metadados

Metadados	Descrição	Idioma
Autor(es): dc.contributor	Pimentel, Andrey Ricardo, 1965-	-
Autor(es): dc.contributor	Casanova, Dalcimar	-
Autor(es): dc.contributor	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática	-
Autor(es): dc.creator	Fávero, Eliane Maria de Bortoli	-
Data de aceite: dc.date.accessioned	2025-09-01T12:24:30Z	-
Data de disponibilização: dc.date.available	2025-09-01T12:24:30Z	-
Data de envio: dc.date.issued	2021-12-13	-
Data de envio: dc.date.issued	2021-12-13	-
Data de envio: dc.date.issued	2019	-
Fonte completa do material: dc.identifier	https://hdl.handle.net/1884/69194	-
Fonte: dc.identifier.uri	http://educapes.capes.gov.br/handle/1884/69194	-
Descrição: dc.description	Orientador: Andrey Ricardo Pimentel	-
Descrição: dc.description	Coorientador: Dalcimar Casanova	-
Descrição: dc.description	Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 25/06/2020	-
Descrição: dc.description	Inclui referências: p. 101-114	-
Descrição: dc.description	Área de concentração: Ciência da Computação	-
Descrição: dc.description	Resumo: A estimativa de esforço é uma das atividades que compõe a fase de planejamento do processo de desenvolvimento de software, e ao longo de muitos anos tem sido um desafio para a indústria. A estimativa de esforço de software baseada em analogia requer conhecimento acerca de dados históricos de projetos e raramente é usada durante a fase de planejamento do processo de desenvolvimento, seja pela incerteza associada aos atributos do projeto e requisitos, ou mesmo pela indisponibilidade dos dados necessários. Normalmente, na fase inicial, o que se tem são requisitos em formato textual. Extrair características viáveis desses artefatos textuais a fim de classificá-los e inferir estimativas de esforço tem sido algo complexo. A maioria das iniciativas de Processamento de Linguagem Natural (PLN) com essa finalidade, representam os textos por meio de características individuais das palavras (ex. Term-frequency (TF), Term Frequency-Inverse Document Frequency (TF-IDF)) ou a partir de modelos de embeddings semcontexto (ex. Word2Vec), o que muitas vezes não são suficientes para discriminar adequadamente cada um dos textos. Visando a exploração de uma técnica mais eficaz para a representação de textos de requisitos aplicados à inferência de estimativa de esforço de software por analogia, essa tese propõe a hipótese de que modelos de embeddings pré-treinados contextualizados são mais eficazes que os modelos de embeddings sem-contexto na representação de características textuais. Desta forma, o objetivo principal dessa pesquisa é propor um modelo para a inferência de estimativas de esforço por analogia, fazendo uso de modelos de embeddings pré-treinados contextualizados, tendo como entrada o uso exclusivo de requisitos textuais, gerados na fase inicial de desenvolvimento. Para fins de comparação, foram aplicados modelos pré-treinados genéricos (sem-contexto e contextualizados), fazendo uso do Bidirectional Transformer Encoder (BERT) e Word2Vec. Ambos os modelos passaram por um processo de ajuste-fino, cujos modelos resultantes foram utilizados como entrada em uma arquitetura deep learning simplificada, composta de uma camada recorrente, duas camadas densas não-lineares e uma densa linear, para a inferência da estimativa de esforço. Os resultados foram promissores, constatando que modelos pré-treinados de embeddings realmente são aplicáveis à estimativa de esforço de software baseada puramente em textos de requisitos. Destacam-se os resultados obtidos quando da aplicação do modelo BERT pré-treinado com ajuste-fino em um repositório multi-projetos, cujo valor para o Mean Absolut Error (MAE) é de 4.25 e desvio padrão de apenas 0.17, o que representa um resultado bem adequado, quando comparado aos trabalhos similares. As principais vantagens do método de estimativa proposto são: confiabilidade; possibilidade de generalização, pois usa repositório único e independente de projetos, e possibilita inferência de estimativa para requisitos existentes e novos; além de rapidez e baixo custo computacional, fornecidos pelo processo de ajuste fino. Palavras-chave: Estimativa de esforço de software. Modelo de embedding pré-treinado. Embedding sem-contexto. Embedding contextualizado. BERT. Feature Learning. Modelo de domínio específico.	-
Descrição: dc.description	Abstract: The effort estimate is one of the activities that make up a planning phase of the software development process, and over many years, it has been a challenge for the industry. The analogybased software effort estimate requires knowledge about historical project data, and it is rarely used during the initial phase of the development process, either because of the uncertainty associated with the project's attributes and requirements or even because the necessary data is unavailable. Usually, what you have in the initial phase are requirements in textual format. Extracting viable characteristics from these textual artifacts to classify them and infer effort estimates has been somewhat complex. Most of the Natural Language Processing (NLP) initiatives for this purpose represent the texts using individual word characteristics (e.g. Term-frequency (TF), Term Frequency-Inverse Document Frequency (TF-IDF)) or from context-less embeddings models (e.g. Word2Vec), which are often not enough to properly discriminate each text. Aiming to explore a more effective technique for the representation of requirements texts applied to the inference of software effort estimation by analogy, the hypothesis of this thesis is that contextualized pre-trained embeddings models are more effective than context-less pre-trained embeddings in the representation of textual characteristics. Thus, the main objective of this research is to propose a model for the inference of effort estimates by analogy, making use of contextualized pre-trained embeddings models, having as input the exclusive use of textual requirements, generated in the initial stage of development. For comparison purposes, generic pre-trained models (context-less and contextualized) were applied, using the Bidirectional Transformer Encoder (BERT) and Word2Vec. Both models went through a fine-tuning process, the resulting models of which were used as input to a simplified deep learning architecture, composed of a recurring layer, two dense non-linear layers, and a dense linear, for the inference of the effort estimate. The results are promising, realizing that pre-trained models of embeddings are really applicable to software effort estimation based purely on requirement texts. The results obtained when applying the pre-trained BERT model with fine-tuning in a multi-project repository are highlighted, whose value for Mean Absolute Error (MAE) is 4.25 and standard deviation of only 0.17, the which represents an adequate result, when compared to similar works. The main advantages of the proposed estimation method are: reliability; generalization possibility, since it uses a single and independent project repository, and allows estimation inference for existing and new requirements; in addition to speed and low computational cost, provided by the fine-tuning process. Keywords: Software effort estimation. Pre-trained embedding model. Embedding context-less. Embedding contextualized. BERT. Domain-specific model	-
Formato: dc.format	[137] p. : PDF.	-
Formato: dc.format	application/pdf	-
Formato: dc.format	application/pdf	-
Palavras-chave: dc.subject	Software - Desenvolvimento	-
Palavras-chave: dc.subject	Ciência da Computação	-
Título: dc.title	SE³M : um modelo para estimativa de esforço de software a partir de requisitos textuais aplicando modelos de embeddings pré-treinados contextualizados	-
Aparece nas coleções:	Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.

O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma:

O Termo de Uso pode ser modificado pela CAPES a qualquer tempo, sem necessidade de notificação prévia, sendo que tais modificações serão válidas a partir da data de sua veiculação neste portal;
Para aprovação de cadastro do usuário ao sistema, a CAPES pode requisitar o fornecimento de informações, haja vista a política de segurança adotada, objetivando resguardar a segurança dos usuários nesse ambiente virtual;
O usuário aceita e declara compreender que, em razão do peculiar ambiente da Internet, a CAPES não poderá garantir que o acesso ao site seja livre de erros ou problemas decorrentes de casos fortuitos, internos ou externos, casos de força maior ou ainda de outros casos não inteiramente sujeitos a controle direto dos administradores do site e, portanto o usuário se obriga a isentar a CAPES de quaisquer reclamações ou indenizações. A CAPES também não se responsabiliza por interrupções, interceptações, invasões, disseminação de vírus ou outros atos ilícitos, típicos e atípicos de ambiente virtual, e de web, dos quais a CAPES não tenha tido intenção deliberada de participar ou praticar;
O usuário aceita e declara compreender que qualquer texto, marca, áudio, imagem, ou conteúdo veiculados no site são protegidos por direitos de propriedade intelectual o qual deve ser respeitado de acordo com a licença concedida pelo respectivo detentor dos referidos direitos, sob pena de apuração das responsabilidades cabíveis;
Desta forma a CAPES se exime de toda e qualquer responsabilidade por eventuais perdas, danos e prejuízos de qualquer natureza decorrentes:
- Do descumprimento da lei, da moral e dos bons costumes, como consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da infração aos direitos de propriedade intelectual e industrial, segredos empresariais, compromissos contratuais de qualquer tipo, direitos à honra, à intimidade pessoal e familiar, à imagem das pessoas, direitos de propriedade e de toda e qualquer natureza pertencentes a um terceiro por consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da falta de veracidade, precisão, exatidão, pertinência e/ou atualidade dos conteúdos;
- Da inadequação para qual seja o propósito, ou da frustração, das expectativas geradas pelos conteúdos;
Exceto quando mencionado explicitamente, ou quando se tratar de citação de material alheio ou ilustração, nos limites estabelecidos pela Lei 9.610/98, todo o Conteúdo textual original do Portal eduCAPES está disponível livremente para leitura, entre outros direitos, conforme definido na licença Creative Commons;
A CAPES não se responsabiliza pelos comentários, opiniões, informações, depoimentos, mensagens, vídeos, textos, imagens, áudios ou qualquer outro tipo de conteúdo que sejam, postados, publicados e disponibilizados através do Portal eduCAPES pelos usuários, sendo a responsabilidade civil e criminal atribuída única e exclusivamente ao autor dos comentários, opiniões, informações, ou mensagens. Todo o conteúdo publicado por usuários são de responsabilidade exclusiva dos mesmos e de caráter completamente independente, sendo que todo e qualquer tipo de opinião, ideal e/ou posição expressados não refletem necessariamente o ponto de vista e a posição do Portal eduCAPES e/ou da CAPES. A CAPES se reserva o direito de armazenar as informações destes autores e/ou Usuários, a fim de viabilizar sua identificação;
O usuário aceita e declara compreender que a CAPES poderá disponibilizar no Portal eduCAPES, links de acesso para outros sites e endereços virtuais administrados, controlados ou operados por terceiros. Qualquer site conectado a partir do eduCAPES não está sob o controle da CAPES;
A CAPES não assume nenhuma responsabilidade ou obrigação por qualquer informação, comunicação ou material encontrado em tais sites, ou em qualquer site conectado a tais sites. A CAPES não assume qualquer responsabilidade pelos serviços ou funcionalidades ali dispostos, sendo a decisão de utilização e a forma de relacionamento com os mesmos de exclusiva responsabilidade do usuário, que inclusive isenta a CAPES de fiscalizar o conteúdo ou zelar pela integridade de tais sites ou endereços virtuais.
O usuário aceita e declara compreender que o acesso a determinadas áreas do site será restrito. Para acessá-las, o usuário deverá fazer o login e cadastrar uma senha de acesso. A senha é individual, sigilosa e intransferível, sendo o usuário o único responsável pela guarda da mesma. O usuário assume toda e qualquer responsabilidade pelo mau uso ou pela utilização da senha por terceiros;
A CAPES reserva o direito de excluir o cadastro, de excluir o material submetido ou proibir o acesso do usuário ao portal eduCAPES no caso de qualquer abuso ou indício de prática ilícita no uso do site ou de qualquer uso não autorizado ou proibido pelo usuário, nos termos da legislação brasileira;
As condições estabelecidas no Termo de Aceite e Uso do Site são regidas pela lei brasileira. Sob nenhuma circunstância o usuário deverá violar qualquer lei usando o portal eduCAPES para propósitos que incluam, mas não limitados a isso, difamação ou perturbação de outros, violação de direitos de propriedade intelectual ou de terceiros, envio de material obsceno ou ofensivo, vírus, arquivos corrompidos, ou outros programas que poderiam danificar ou alterar este site ou os computadores de empresa ou de terceiros;
A CAPES reserva o direito de retirar qualquer conteúdo que infrinja a lei, a moral e os bons costumes nos termos da legislação vigente e também na hipótese de o conteúdo não se coadunar com as finalidades educativas do Portal. A CAPES garante o direito de defesa e contraditório dos usuários. O usuário reconhece que o material enviado por terceiros, que não a CAPES, não é endossado pela mesma.

Concordo e desejo baixar o arquivo
Não concordo e não irei baixar o arquivo

Mostrar registro simples do item Visualizar estatísticas

Denunciar conteúdo impróprio

Você é humano?

SE³M : um modelo para estimativa de esforço de software a partir de requisitos textuais aplicando modelos de embeddings pré-treinados contextualizados