Modelos neurais artificiais de língua natural para análise de sentimentos em português

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorCarvalho, Aline Marins Paes-
Autor(es): dc.contributorVianna, Daniela Quitete de Campos-
Autor(es): dc.contributorBernardini, Flavia Cristina-
Autor(es): dc.contributorViterbo Filho, José-
Autor(es): dc.creatorCandido, Gabriel de Souza-
Data de aceite: dc.date.accessioned2024-07-11T18:11:55Z-
Data de disponibilização: dc.date.available2024-07-11T18:11:55Z-
Data de envio: dc.date.issued2023-09-19-
Data de envio: dc.date.issued2023-09-19-
Fonte completa do material: dc.identifierhttp://app.uff.br/riuff/handle/1/30438-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/765575-
Descrição: dc.descriptionProblemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.-
Descrição: dc.descriptionText classification problems are widely studied in Machine Learning, one of the subfields of Artificial Intelligence. However, the lack of studies in the Portuguese language turns out to be an obstacle to expanding the area in soils where the Portuguese language is used. This monograph deals with a classification problem of sentiment polarity in tweets, focusing on natural language neural models and tweets datasets in Portuguese. Most datasets have themes that characterize them and different sizes and distributions for sentences with positive or negative polarity. The monograph has two main objectives. The first one involves the investigation of natural language models trained for the Portuguese language and their comparison with a model trained for tweets and another one trained with several languages. The second objective is to investigate how the models trained for the Portuguese language behave when adjusted to two sets of datasets, one containing nine bases and the other containing the same nine bases, but adding two other large ones. The results are obtained with different methodologies, namely, using the pre-trained models as they are available and performing a continuous training of the neural model in three ways. The predictive results are obtained with two classifiers, namely, logistic regression and support vector machines. Also, two evaluation measures are computed following a cross-validation procedure with ten folds, namely the accuracy and value of the F1 measure. The characteristics of the databases, models, and methodologies are considered for the comparisons and justifications raised in the research, seeking implications that they may have had on the results achieved. The results achieved allow us to conclude that BERTIMBAU is the model that presents the best results, while the methodology inData was the best perfoming technique for the tested models. We also conclude that the addition of new datasets only helps the ALBERTPT model, while BERTIMBAU has not seen substantial improvement. For the classification task, Logistic Regression was the classifier with the best results for almost all datasets.-
Descrição: dc.description70 p.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectMáquinas de Vetores de Suporte-
Palavras-chave: dc.subjectRegressão Logística-
Palavras-chave: dc.subjectAnálise de Sentimentos-
Palavras-chave: dc.subjectTweets-
Palavras-chave: dc.subjectProcessamento de linguagem natural (Computação)-
Palavras-chave: dc.subjectLíngua portuguesa-
Palavras-chave: dc.subjectMineração de opiniões (Computação)-
Palavras-chave: dc.subjectTwitter (Site de relacionamentos)-
Palavras-chave: dc.subjectEmbeddings-
Palavras-chave: dc.subjectSupport Vector Machines-
Palavras-chave: dc.subjectLogistic Regression-
Palavras-chave: dc.subjectSentiment Analysis-
Título: dc.titleModelos neurais artificiais de língua natural para análise de sentimentos em português-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.