A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorAlmeida, Eduardo C. de-
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática-
Autor(es): dc.creatorKepe, Tiago Rodrigo-
Data de aceite: dc.date.accessioned2019-08-21T23:50:19Z-
Data de disponibilização: dc.date.available2019-08-21T23:50:19Z-
Data de envio: dc.date.issued2014-12-02-
Data de envio: dc.date.issued2014-12-02-
Data de envio: dc.date.issued2013-
Fonte completa do material: dc.identifierhttp://hdl.handle.net/1884/36783-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/36783-
Descrição: dc.descriptionOrientador : Prof. Dr. Eduardo C. de Almeida-
Descrição: dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 25/08/2014-
Descrição: dc.descriptionInclui referências-
Descrição: dc.descriptionResumo: O software de processamento de dados Apache Hadoop está introduzido em um ambiente complexo composto de enormes cluster de máquinas, grandes conjuntos de dados e vários programas de processamento. Administrar tal ambiente demanda tempo, é dispendioso e requer usuários experts. Por isso, falta de conhecimento pode ocasionar falhas de configurações degradando a performance do cluster de processamento. Realmente, usuários gastam muito tempo configurando o ambiente em vez de focar na análise dos dados. Para resolver questões de má configuração nós propomos uma solução, cujo objetivo é ajustar parâmetros de desempenho de programas executados sobre o Hadoop em ambientes Big Data. Para alcançar isto, nosso mecanismo de ajuste de desempenho inspira-se em duas ideias-chave: (1) um algoritmo evolucionário para gerar e testar novas configurações de jobs, e (2) amostragem de dados para reduzir o custo do processo de ajuste de desempenho. A partir dessas ideias desenvolvemos um framework para testar configurações usuais de programas e obter uma nova configuração mais ajustada ao estado atual do ambiente. Resultados experimentais mostram ganho na performance de jobs comparado com as configurações padrão e _regras de ouro_ do Hadoop. Além disso, os experimentos comprovam a acurácia da nossa solução no que se refere ao custo para obter uma melhor configuração e a qualidade da configuração alcançada. Palavras chaves: Big Data, MapReduce, Hadoop, Ajuste-
Descrição: dc.descriptionAbstract: The Apache Hadoop data processing software is immersed in a complex environment composed of huge machine clusters, large data sets, and several processing jobs. Managing a Hadoop environment is time consuming, toilsome and requires expert users. Thus, lack of knowledge may entail miscongurations degrading the cluster performance. Indeed, users spend a lot of time tuning the system instead of focusing on data analysis. To address misconguration issues we propose a solution implemented on top of Hadoop. The goal is presenting a tuning mechanism for Hadoop jobs on Big Data environments. To achieve this, our tuning mechanism is inspired by two key ideas: (1) an evolutionary algorithm to generate and test new job congurations, and (2) data sampling to reduce the cost of the tuning process. From these ideas we developed a framework for testing usual job congurations and get a new conguration suitable to the current state of the environment. Experimental results show gains in job performance against the Hadoop's default conguration and the rules of thumb. Besides, the experiments prove the accuracy of our solution which is the relation between the cost to obtain a better conguration and the quality of the conguration reached. Keywords: Big Data, MapReduce, Hadoop, Tuning-
Formato: dc.format51f. : il., tabs., grafs.-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Relação: dc.relationDisponível em formato digital-
Palavras-chave: dc.subjectSistemas de reconhecimento de padrões-
Palavras-chave: dc.subjectCiência da computação-
Título: dc.titleA tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.