Transferência de aprendizado na classificação de comentários tóxicos em português

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorCarvalho, Aline Marins Paes-
Autor(es): dc.contributorhttp://lattes.cnpq.br/0506389215528790-
Autor(es): dc.contributorSantos, Jéssica Soares dos-
Autor(es): dc.contributorhttp://lattes.cnpq.br/5307627382761173-
Autor(es): dc.contributorVieira, Bruno Lopes-
Autor(es): dc.contributorhttp://lattes.cnpq.br/7793315334001237-
Autor(es): dc.contributorCarvalho, Jonnathan dos Santos-
Autor(es): dc.contributorhttp://lattes.cnpq.br/5352295277350063-
Autor(es): dc.contributorhttp://lattes.cnpq.br/3131057038062913-
Autor(es): dc.creatorNakao, Arthur de Lima-
Data de aceite: dc.date.accessioned2024-07-11T17:48:48Z-
Data de disponibilização: dc.date.available2024-07-11T17:48:48Z-
Data de envio: dc.date.issued2022-10-25-
Data de envio: dc.date.issued2022-10-25-
Fonte completa do material: dc.identifierhttp://app.uff.br/riuff/handle/1/26659-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/758027-
Descrição: dc.descriptionO avanço de comentários tóxicos nas redes sociais é um problema grave que pode causar diversos transtornos psicológicos nos alvos desses comentários. Para impedir esse tipo de comentário, as redes sociais poderiam utilizar algoritmos de aprendizado de máquina a fim de detectar essa toxicidade e não deixar que ela se espalhe. Grandes bases de dados anotadas para esse tipo de tarefa em inglês estão disponíveis, o que torna muito mais fácil o treinamento de modelos capazes de realizar a classificação de comentários ofensivos neste idioma. Por outro lado, torna-se mais desafiador realizar o treinamento de classificadores capazes de detectar comentários tóxicos em idiomas como o português, que possui poucas bases de dados previamente anotadas para esta tarefa em comparação com o inglês. Pensando nisso, o presente trabalho compara classificadores para detecção de comentário tóxico em Português que utilizam formas distintas de vetorização para representar textos: bag of words, embeddings estáticos e embeddings contextualizados. Também são realizadas comparações usando modelos pré-treinados em português, espanhol e um modelo multilíngue. A partir dessas comparações, foi possível constatar que a classificação de comentários em português como tóxico ou não tóxico utilizando modelos pré-treinados em línguas diferentes do português não é uma boa solução para resolver o problema. Foi possível perceber, também, que a utilização desses modelos sem um ajuste nos pesos da rede para a tarefa que estiver sendo classificada não retorna bons resultados. Além disso, foi possível verificar que a utilização de modelos pré-treinados sem qualquer tipo de ajuste específico para a tarefa em questão não traz bons resultados e que é preferível o uso de embeddings contextualizados em relação aos estáticos. Conclui-se que não foi possível chegar a resultados excelentes que resolvam o problema da falta de bases de dados anotadas para a classificação de comentários tóxicos em português, mas verificou-se que modelos pré-treinados retornam melhores resultados quando passam pelo processo de fine-tuning.-
Descrição: dc.descriptionThe advance of toxic comments on social networks is a serious problem that can cause several psychological disorders in their targets. To prevent this type of comment, social networks could use machine learning algorithms to detect this toxicity and not let it spread. Large databases annotated for this task in English are available, making it much easier to train models capable of classifying offensive comments in this language. On the other hand, it becomes more challenging to train classifiers capable of detecting toxic comments in languages such as Portuguese, which has few previously annotated databases for this task compared to English. With this in mind, the present work compares classifiers for detecting toxic commentary in Portuguese that use different forms of vectorization to represent texts: bag of words, static embeddings and contextualized embeddings. Comparisons are also performed using pre-trained models in Portuguese, Spanish and a multilingual model. From these comparisons, it was possible to verify that the classification of comments in Portuguese as toxic or non-toxic using pre-trained models in languages other than Portuguese is not a good solution to solve the problem. It was also possible to notice that using these models without adjusting the network weights for the classified task does not yield good results. mn addition, it was possible to verify that using pre-trained models without any specific adjustment for the task in question does not bring good results and that using contextualized embeddings is preferable to static ones. It is concluded that it challenging to reach excellent results that solve the problem of the lack of annotated databases for the classification of toxic comments in Portuguese, but pre-trained models return better results when they go through the fine-tuning process.-
Descrição: dc.description45 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectInteligência Artificial-
Palavras-chave: dc.subjectAprendizado de Máquina-
Palavras-chave: dc.subjectRedes Neurais-
Palavras-chave: dc.subjectZero-Shot-
Palavras-chave: dc.subjectFine-Tuning-
Palavras-chave: dc.subjectComentário Tóxico-
Palavras-chave: dc.subjectInteligência Artificial-
Palavras-chave: dc.subjectAprendizado de máquina-
Palavras-chave: dc.subjectRede neural-
Palavras-chave: dc.subjectZero-Shot-
Palavras-chave: dc.subjectFine-Tuning-
Palavras-chave: dc.subjectComentário Tóxico-
Palavras-chave: dc.subjectArtificial Intelligence-
Palavras-chave: dc.subjectMachine Learning-
Palavras-chave: dc.subjectNeural Network-
Palavras-chave: dc.subjectToxic Comment-
Palavras-chave: dc.subjectArtificial Intelligence-
Palavras-chave: dc.subjectMachine Learning-
Palavras-chave: dc.subjectNeural Network-
Palavras-chave: dc.subjectToxic Comment-
Título: dc.titleTransferência de aprendizado na classificação de comentários tóxicos em português-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.