Caracterização da confiabilidade de sítios Web através de métodos de aprendizado de máquina

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorMattos, Diogo Menezes Ferrazani-
Autor(es): dc.contributorMoraes, Igor Monteiro-
Autor(es): dc.contributorMedeiros, Dianne Scherly Varela de-
Autor(es): dc.contributorOliveira, Nicollas Rodrigues de-
Autor(es): dc.creatorMendonça, Marcos Paulo Cezar de-
Data de aceite: dc.date.accessioned2025-01-03T11:35:28Z-
Data de disponibilização: dc.date.available2025-01-03T11:35:28Z-
Data de envio: dc.date.issued2024-08-29-
Data de envio: dc.date.issued2024-08-29-
Fonte completa do material: dc.identifierhttps://app.uff.br/riuff/handle/1/34473-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/918851-
Descrição: dc.descriptionA crescente disseminação de Notícias Falsas (Fake News) e desinformação tem impactado diversas esferas no cenário brasileiro, nos âmbitos político e social. A maior parte dessas informações falsas são divulgadas por meio de mídias sociais, através do compartilhamento de sítios web de portais de notícias maliciosos. Embora muitos estudos concentrem seus esforços na detecção de aspectos relacionados às redes sociais, uma das origens da desinformação está em sítios maliciosos não confiáveis. Dessa forma, estratégias para identificação e distinção de sítios web confiáveis e não confiáveis são necessárias no combate à desinformação. Esse trabalho propõe a classificação de sítios web de notícias confiáveis e não confiáveis a partir de atributos de domínio, certificado e geolocalização. A classificação é realizada através de modelos de aprendizado de máquina supervisionados, como Naive Bayes, Máquina de Vetor de Suporte, Árvore de Decisão, Floresta Aleatória, Redes Neurais, Regressão Linear, K-Vizinhos Mais Próximos e Perceptron Multicamadas. Os resultados obtidos demonstram que o modelo que apresentou o melhor desempenho foi o de Floresta Aleatória combinada com normalização, tendo 84% de acurácia, 83% de precisão, 75% de sensibilidade, 79% de pontuação-F1 e 91% de área sob a curva ROC. A partir dessa Floresta Aleatória é realizado um estudo para avaliar os atributos que são mais relevantes para a resposta do modelo. Com isso, obtem-se que os atributos relacionados ao domínio do sítio têm grande importância, como o tamanho do subdomínio e o dia de criação, expiração.-
Descrição: dc.descriptionThe growing dissemination of Fake News and disinformation has impacted several spheres in the Brazilian scenario, in the political and social spheres. Most of this false information is spread through social media, through sharing websites of malicious news portals. Al- though many studies focus their efforts on detecting aspects related to social networks, one of the origins of disinformation lies in untrustworthy malicious websites. Therefore, strategies for identifying and distinguishing trustworthy and untrustworthy websites are necessary to combat misinformation. This work proposes the classification of trustworthy and untrustworthy news websites based on domain, certificate and geolocation attributes. Classification is performed through supervised machine learning models such as Naive Bayes, Support Vector Machine, Decision Tree, Random Forest, Neural Networks, Lin- ear Regression, K-Nearest Neighbors and Multilayer Perceptron. The results obtained demonstrate that the model that presented the best performance was the Random Forest combined with normalization, having 84% accuracy, 83% precision, 75% sensitivity, 79% F1 score and 91% area under the ROC curve. From this Random Forest, a study is carried out to evaluate the attributes that are most relevant to the model’s response. Thus, It is possible to infer that attributes related to the site’s domain are of great importance, such as the size of the subdomain and the day.-
Descrição: dc.description52 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectNotícias falsas-
Palavras-chave: dc.subjectAprendizado de máquina-
Palavras-chave: dc.subjectFloresta aleatória-
Palavras-chave: dc.subjectConfiabilidade de sítios Web-
Palavras-chave: dc.subjectAprendizado de máquina-
Palavras-chave: dc.subjectFake news-
Palavras-chave: dc.subjectSite da Web-
Palavras-chave: dc.subjectFake news-
Palavras-chave: dc.subjectMachine learning-
Palavras-chave: dc.subjectRandom forest-
Palavras-chave: dc.subjectReliability of websites-
Título: dc.titleCaracterização da confiabilidade de sítios Web através de métodos de aprendizado de máquina-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.