Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorDrummond, Lúcia Maria de Assumpção-
Autor(es): dc.contributorhttp://lattes.cnpq.br/9314029648579658-
Autor(es): dc.contributorVieira, Bruno Lopes-
Autor(es): dc.contributorhttp://lattes.cnpq.br/7793315334001237-
Autor(es): dc.contributorCoutinho, Rafaelli de Carvalho-
Autor(es): dc.contributorhttp://lattes.cnpq.br/8871521490245734-
Autor(es): dc.creatorPereira, Matheus Marotti-
Autor(es): dc.creatorSilva, Thiago do Prado-
Data de aceite: dc.date.accessioned2024-07-11T17:31:53Z-
Data de disponibilização: dc.date.available2024-07-11T17:31:53Z-
Data de envio: dc.date.issued2022-10-31-
Data de envio: dc.date.issued2022-10-31-
Fonte completa do material: dc.identifierhttp://app.uff.br/riuff/handle/1/26754-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/752191-
Descrição: dc.descriptionA presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema.-
Descrição: dc.descriptionThis work describes a Web Scraping framework based on burstable virtual machines of AWS to reduce financial costs while meeting a given deadline. In addition to creating a system that takes advantage of the burst capacity of this instance type, this work compares it with other existing approaches, pointing out scenarios where the proposed framework can bring advantages over them. Web Scraping is a widely used technique for decision making, collecting and structuring public data on the internet that are not available via API. When the load of information needed for decisions increases, it is necessary to refine data extraction systems seeking more efficient methods. The framework defines a mixed cluster, with fixed and temporary burstable virtual machines. This same cluster can be elastically increased or decreased by varying the instances of the set of temporary burstable VMs, to meet the scraping requests Service Level Agreement (SLA) and reduce the financial cost. The proposed framework was evaluated in the AWS cloud environment, in versions with one and two fixed burstable machines, and compared to an entirely ondemand instances cluster (regular approach) and also to a Function as a Service (FaaS) approach. It was able of reducing the financial cost by up to 96% when compared to the FaaS approach, and by up to 95.59% when compared to the regular approach in the best cases. In addition, in all other cases, it achieved at least 93,26% of cost savings, showing that burstable instances can be an excellent tool for this problem.-
Descrição: dc.description74 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectWeb Scraping-
Palavras-chave: dc.subjectMáquina burstable-
Palavras-chave: dc.subjectNuvem AWS-
Palavras-chave: dc.subjectComputação em nuvem-
Palavras-chave: dc.subjectFramework (Programa de computador)-
Palavras-chave: dc.subjectBurstable instances-
Palavras-chave: dc.subjectAWS Cloud-
Título: dc.titleWeb Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.