Detecção de discurso de ódio em língua portuguesa : uma análise do impacto da qualidade e diversidade de dados no desempenho de grandes modelos de linguagem.

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorLuz, Eduardo José da Silva-
Autor(es): dc.contributorLuz, Eduardo José da Silva-
Autor(es): dc.contributorGertrudes, Jadson Castro-
Autor(es): dc.contributorFreitas, Larissa Astrogildo de-
Autor(es): dc.contributorSilva, Rodrigo César Pedrosa-
Autor(es): dc.creatorOliveira, Amanda da Silva-
Data de aceite: dc.date.accessioned2025-08-21T15:30:27Z-
Data de disponibilização: dc.date.available2025-08-21T15:30:27Z-
Data de envio: dc.date.issued2024-08-30-
Data de envio: dc.date.issued2024-08-30-
Data de envio: dc.date.issued2023-
Fonte completa do material: dc.identifierhttps://www.repositorio.ufop.br/handle/123456789/18459-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1016963-
Descrição: dc.descriptionPrograma de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.-
Descrição: dc.descriptionCom a popularização de grandes modelos de linguagem, o mercado e a academia têm mudado a forma de lidar com tarefas de processamento de linguagem natural. Na tentativa de investigar se existem mudanças significativas em diferentes tarefas fazendo uso desses novos modelos, este estudo busca entender o comportamento de grandes modelos de linguagem na tarefa de detecção de discurso de ódio quando comparado a performance de modelos baseados em BERT, utilizando dois diferentes conjuntos de dados: um vindo da literatura e outro inédito, criado nesta pesquisa. Comparamos modelos como Claude 3 Opus, versões do ChatGPT e grandes modelos de linguagem feitos especificamente para o português brasileiro como o Maritalk com modelos baseados em BERT. Este estudo mostra que o desempenho desses modelos pode variar de forma significativa, destacando a importância dos dados no processo de treinamento e avaliação dessas ferramentas. Além disso, a introdução de um novo conjunto de dados inédito busca enriquecer as ferramentas disponíveis para futuras pesquisas. Os resultados indicam que, apesar dos desafios, é possível alcançar bons níveis de precisão na detecção de discurso de ódio utilizando grandes modelos de linguagem ou modelos baseados em BERT, e enfatizam também a importância de usar diferentes conjuntos de dados atualizados para avaliar os modelos para a tarefa de detecção de discurso de ódio.-
Descrição: dc.descriptionWith the popularization of large language models, both the market and academia have been changing the way they handle natural language processing tasks. In an attempt to investigate whether there are significant changes in different tasks using these new models, this study seeks to understand the behavior of large language models in the task of hate speech detection compared to the performance of BERT-based models, using two different datasets: one from the literature and another new one, created in this research. We compare models such as Claude 3 Opus, versions of ChatGPT, and large language models specifically made for Brazilian Portuguese like Maritalk with BERT-based models. This study shows that the performance of these models can vary significantly, highlighting the importance of data in the training and evaluation process of these tools. Moreover, the introduction of a new, unique dataset seeks to enrich the tools available for future research. The results indicate that, despite the challenges, it is possible to achieve good levels of accuracy in hate speech detection using large language models or BERT-based models, and also emphasize the importance of using different, up-to-date datasets to assess the models for the task of hate speech detection.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsaberto-
Direitos: dc.rightsAttribution-ShareAlike 3.0 United States-
Direitos: dc.rightshttp://creativecommons.org/licenses/by-sa/3.0/us/-
Direitos: dc.rightsAutorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 30/07/2024 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho, desde que sejam citados o autor e o licenciante.-
Palavras-chave: dc.subjectInteligência artficial-
Palavras-chave: dc.subjectProcessamento de linguagem natural-
Palavras-chave: dc.subjectGrandes modelos de linguagem-
Palavras-chave: dc.subjectDiscurso de ódio-
Título: dc.titleDetecção de discurso de ódio em língua portuguesa : uma análise do impacto da qualidade e diversidade de dados no desempenho de grandes modelos de linguagem.-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositório Institucional - UFOP

Não existem arquivos associados a este item.