Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorKubrusly, Jessica Quintanilha-
Autor(es): dc.contributorKubrusly, Jessica Quintanilha-
Autor(es): dc.contributorCosta, Patrícia Lusié Velozo da-
Autor(es): dc.contributorErbisti, Rafael Santos-
Autor(es): dc.creatorMarques, Thamires Louzada-
Data de aceite: dc.date.accessioned2024-07-11T17:42:04Z-
Data de disponibilização: dc.date.available2024-07-11T17:42:04Z-
Data de envio: dc.date.issued2023-04-04-
Data de envio: dc.date.issued2023-04-04-
Data de envio: dc.date.issued2021-
Fonte completa do material: dc.identifierhttp://app.uff.br/riuff/handle/1/28455-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/755679-
Descrição: dc.descriptionEste projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.-
Descrição: dc.description52 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectAprendizado de máquina-
Palavras-chave: dc.subjectMineração de texto-
Palavras-chave: dc.subjectClassificação de dados-
Palavras-chave: dc.subjectTwitter-
Palavras-chave: dc.subjectTwitter (Site de relacionamentos)-
Palavras-chave: dc.subjectMineração de texto-
Palavras-chave: dc.subjectModelo estatístico-
Título: dc.titleMineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.