
Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
| Metadados | Descrição | Idioma |
|---|---|---|
| Autor(es): dc.contributor | Montaño, Razer Anthom Nizer Rojas, 1975- | - |
| Autor(es): dc.contributor | Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Curso de Especialização em Inteligência Artificial Aplicada | - |
| Autor(es): dc.creator | Lafuente, Aleida Mopi | - |
| Data de aceite: dc.date.accessioned | 2025-09-01T11:52:10Z | - |
| Data de disponibilização: dc.date.available | 2025-09-01T11:52:10Z | - |
| Data de envio: dc.date.issued | 2025-07-25 | - |
| Data de envio: dc.date.issued | 2025-07-25 | - |
| Data de envio: dc.date.issued | 2024 | - |
| Fonte completa do material: dc.identifier | https://hdl.handle.net/1884/97540 | - |
| Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/1884/97540 | - |
| Descrição: dc.description | Orientador: Prof. Dr. Razer Anthom Nizer Rojas Montaño | - |
| Descrição: dc.description | Monografia (especialização) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Inteligência Artificial Aplicada, Curso de Especialização em Inteligência Artificial Aplicada | - |
| Descrição: dc.description | Inclui referências | - |
| Descrição: dc.description | Resumo: Com o avanço das ameaças cibernéticas, a automação do processo de takedown de URLs maliciosas tornou-se uma estratégia essencial na segurança digital. Este trabalho realiza uma análise comparativa dos algoritmos Random Forest e XGBoost na classificação de URLs como benignas ou maliciosas, utilizando exclusivamente atributos lexicais. A base de dados empregada foi a ISCX-URL2016, composta por 36.708 URLs distribuídas em cinco categorias (benignas, phishing, spam, malware e defacement) e descritas por 79 atributos estruturais. A metodologia adotou divisão estratificada dos dados (80/20), validação cruzada k fold (k=10) e otimização de hiperparâmetros via grid search. Os resultados indicam que ambos os modelos apresentaram alto desempenho, sendo que o Random Forest obteve acurácia de 98,12% e F1-score macro de 0,98, enquanto o XGBoost superou ligeiramente com acurácia de 98,62% e F1-score macro de 0,99. Já a análise das matrizes de confusão revelou que o XGBoost apresentou menor taxa de erros, especialmente nas classes "phishing" e "spam". A importância dos atributos evidenciou que características como comprimento da URL, número de tokens e entropia dos caracteres foram as mais relevantes para a classificação, com os resultados comprovando que é possível atingir alto desempenho utilizando apenas atributos lexicais e deste modo contribuindo para processos de takedown mais rápidos, eficientes e com menor custo computacional | - |
| Descrição: dc.description | Abstract: With the advancement of cyber threats, automating the takedown process of malicious URLs has become an essential strategy in digital security. This study presents a comparative analysis of the Random Forest and XGBoost algorithms for classifying URLs as benign or malicious, using exclusively lexical features. The ISCX-URL2016 dataset, with 36,708 URLs across f ive categories and 79 structural attributes, was used. The methodology included stratified data splitting (80/20), 10-fold cross-validation, and hyperparameter optimization via grid search. Both models performed well: Random Forest achieved 98.12% accuracy and a macro F1-score of 0.98, while XGBoost reached 98.62% accuracy and a macro F1-score of 0.99. XGBoost showed lower error rates, notably in "phishing" and "spam" classes. Feature importance analysis highlighted URL length, token count, and character entropy as most relevant. The findings confirm high performance using only lexical features, aiding faster, more efficient, and less resource-intensive takedown efforts | - |
| Formato: dc.format | 1 recurso online : PDF. | - |
| Formato: dc.format | application/pdf | - |
| Formato: dc.format | application/pdf | - |
| Palavras-chave: dc.subject | Centros de Processamento de Dados - Medidas de segurança | - |
| Palavras-chave: dc.subject | Computadores - Medidas de segurança | - |
| Palavras-chave: dc.subject | Virus de computador | - |
| Palavras-chave: dc.subject | Crime por computador | - |
| Título: dc.title | Classificação de URLs maliciosas com base em atributos lexicais usando Random Forest e XGBoost | - |
| Aparece nas coleções: | Repositório Institucional - Rede Paraná Acervo | |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: