Atenção: Todas as denúncias são sigilosas e sua identidade será preservada.
Os campos nome e e-mail são de preenchimento opcional
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Kubrusly, Jessica Quintanilha | - |
Autor(es): dc.contributor | Kubrusly, Jessica Quintanilha | - |
Autor(es): dc.contributor | Costa, Patrícia Lusié Velozo da | - |
Autor(es): dc.contributor | Erbisti, Rafael Santos | - |
Autor(es): dc.creator | Marques, Thamires Louzada | - |
Data de aceite: dc.date.accessioned | 2024-07-11T17:42:04Z | - |
Data de disponibilização: dc.date.available | 2024-07-11T17:42:04Z | - |
Data de envio: dc.date.issued | 2023-04-04 | - |
Data de envio: dc.date.issued | 2023-04-04 | - |
Data de envio: dc.date.issued | 2021 | - |
Fonte completa do material: dc.identifier | http://app.uff.br/riuff/handle/1/28455 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/755679 | - |
Descrição: dc.description | Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff. | - |
Descrição: dc.description | 52 f. | - |
Formato: dc.format | application/pdf | - |
Idioma: dc.language | pt_BR | - |
Direitos: dc.rights | Open Access | - |
Direitos: dc.rights | CC-BY-SA | - |
Palavras-chave: dc.subject | Aprendizado de máquina | - |
Palavras-chave: dc.subject | Mineração de texto | - |
Palavras-chave: dc.subject | Classificação de dados | - |
Palavras-chave: dc.subject | - | |
Palavras-chave: dc.subject | Twitter (Site de relacionamentos) | - |
Palavras-chave: dc.subject | Mineração de texto | - |
Palavras-chave: dc.subject | Modelo estatístico | - |
Título: dc.title | Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários | - |
Tipo de arquivo: dc.type | Trabalho de conclusão de curso | - |
Aparece nas coleções: | Repositório Institucional da Universidade Federal Fluminense - RiUFF |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: