SE³M : um modelo para estimativa de esforço de software a partir de requisitos textuais aplicando modelos de embeddings pré-treinados contextualizados

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorPimentel, Andrey Ricardo, 1965--
Autor(es): dc.contributorCasanova, Dalcimar-
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática-
Autor(es): dc.creatorFávero, Eliane Maria de Bortoli-
Data de aceite: dc.date.accessioned2021-03-09T21:17:09Z-
Data de disponibilização: dc.date.available2021-03-09T21:17:09Z-
Data de envio: dc.date.issued2021-01-05-
Data de envio: dc.date.issued2021-01-05-
Data de envio: dc.date.issued2019-
Fonte completa do material: dc.identifierhttps://hdl.handle.net/1884/69194-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/69194-
Descrição: dc.descriptionOrientador: Andrey Ricardo Pimentel-
Descrição: dc.descriptionCoorientador: Dalcimar Casanova-
Descrição: dc.descriptionTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 25/06/2020-
Descrição: dc.descriptionInclui referências: p. 101-114-
Descrição: dc.descriptionÁrea de concentração: Ciência da Computação-
Descrição: dc.descriptionResumo: A estimativa de esforço é uma das atividades que compõe a fase de planejamento do processo de desenvolvimento de software, e ao longo de muitos anos tem sido um desafio para a indústria. A estimativa de esforço de software baseada em analogia requer conhecimento acerca de dados históricos de projetos e raramente é usada durante a fase de planejamento do processo de desenvolvimento, seja pela incerteza associada aos atributos do projeto e requisitos, ou mesmo pela indisponibilidade dos dados necessários. Normalmente, na fase inicial, o que se tem são requisitos em formato textual. Extrair características viáveis desses artefatos textuais a fim de classificá-los e inferir estimativas de esforço tem sido algo complexo. A maioria das iniciativas de Processamento de Linguagem Natural (PLN) com essa finalidade, representam os textos por meio de características individuais das palavras (ex. Term-frequency (TF), Term Frequency-Inverse Document Frequency (TF-IDF)) ou a partir de modelos de embeddings semcontexto (ex. Word2Vec), o que muitas vezes não são suficientes para discriminar adequadamente cada um dos textos. Visando a exploração de uma técnica mais eficaz para a representação de textos de requisitos aplicados à inferência de estimativa de esforço de software por analogia, essa tese propõe a hipótese de que modelos de embeddings pré-treinados contextualizados são mais eficazes que os modelos de embeddings sem-contexto na representação de características textuais. Desta forma, o objetivo principal dessa pesquisa é propor um modelo para a inferência de estimativas de esforço por analogia, fazendo uso de modelos de embeddings pré-treinados contextualizados, tendo como entrada o uso exclusivo de requisitos textuais, gerados na fase inicial de desenvolvimento. Para fins de comparação, foram aplicados modelos pré-treinados genéricos (sem-contexto e contextualizados), fazendo uso do Bidirectional Transformer Encoder (BERT) e Word2Vec. Ambos os modelos passaram por um processo de ajuste-fino, cujos modelos resultantes foram utilizados como entrada em uma arquitetura deep learning simplificada, composta de uma camada recorrente, duas camadas densas não-lineares e uma densa linear, para a inferência da estimativa de esforço. Os resultados foram promissores, constatando que modelos pré-treinados de embeddings realmente são aplicáveis à estimativa de esforço de software baseada puramente em textos de requisitos. Destacam-se os resultados obtidos quando da aplicação do modelo BERT pré-treinado com ajuste-fino em um repositório multi-projetos, cujo valor para o Mean Absolut Error (MAE) é de 4.25 e desvio padrão de apenas 0.17, o que representa um resultado bem adequado, quando comparado aos trabalhos similares. As principais vantagens do método de estimativa proposto são: confiabilidade; possibilidade de generalização, pois usa repositório único e independente de projetos, e possibilita inferência de estimativa para requisitos existentes e novos; além de rapidez e baixo custo computacional, fornecidos pelo processo de ajuste fino. Palavras-chave: Estimativa de esforço de software. Modelo de embedding pré-treinado. Embedding sem-contexto. Embedding contextualizado. BERT. Feature Learning. Modelo de domínio específico.-
Descrição: dc.descriptionAbstract: The effort estimate is one of the activities that make up a planning phase of the software development process, and over many years, it has been a challenge for the industry. The analogybased software effort estimate requires knowledge about historical project data, and it is rarely used during the initial phase of the development process, either because of the uncertainty associated with the project's attributes and requirements or even because the necessary data is unavailable. Usually, what you have in the initial phase are requirements in textual format. Extracting viable characteristics from these textual artifacts to classify them and infer effort estimates has been somewhat complex. Most of the Natural Language Processing (NLP) initiatives for this purpose represent the texts using individual word characteristics (e.g. Term-frequency (TF), Term Frequency-Inverse Document Frequency (TF-IDF)) or from context-less embeddings models (e.g. Word2Vec), which are often not enough to properly discriminate each text. Aiming to explore a more effective technique for the representation of requirements texts applied to the inference of software effort estimation by analogy, the hypothesis of this thesis is that contextualized pre-trained embeddings models are more effective than context-less pre-trained embeddings in the representation of textual characteristics. Thus, the main objective of this research is to propose a model for the inference of effort estimates by analogy, making use of contextualized pre-trained embeddings models, having as input the exclusive use of textual requirements, generated in the initial stage of development. For comparison purposes, generic pre-trained models (context-less and contextualized) were applied, using the Bidirectional Transformer Encoder (BERT) and Word2Vec. Both models went through a fine-tuning process, the resulting models of which were used as input to a simplified deep learning architecture, composed of a recurring layer, two dense non-linear layers, and a dense linear, for the inference of the effort estimate. The results are promising, realizing that pre-trained models of embeddings are really applicable to software effort estimation based purely on requirement texts. The results obtained when applying the pre-trained BERT model with fine-tuning in a multi-project repository are highlighted, whose value for Mean Absolute Error (MAE) is 4.25 and standard deviation of only 0.17, the which represents an adequate result, when compared to similar works. The main advantages of the proposed estimation method are: reliability; generalization possibility, since it uses a single and independent project repository, and allows estimation inference for existing and new requirements; in addition to speed and low computational cost, provided by the fine-tuning process. Keywords: Software effort estimation. Pre-trained embedding model. Embedding context-less. Embedding contextualized. BERT. Domain-specific model-
Formato: dc.format[137] p. : il. (algumas color.).-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Palavras-chave: dc.subjectSoftware - Desenvolvimento-
Palavras-chave: dc.subjectCiência da Computação-
Título: dc.titleSE³M : um modelo para estimativa de esforço de software a partir de requisitos textuais aplicando modelos de embeddings pré-treinados contextualizados-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.