Automatic physical layer tuning of mapreduce-based query processing engines

Lucas Filho, Edson Ramiro, 1986-

Portal eduCapes
Seta
Nossos Parceiros
Seta
Repositório Institucional - Rede Paraná Acervo
Seta

Automatic physical layer tuning of mapreduce-based query processing engines

Use este link compartilhar ou citar este material: http://educapes.capes.gov.br/handle/1884/69157

Registro completo de metadados

Metadados	Descrição	Idioma
Autor(es): dc.contributor	Almeida, Eduardo Cunha de, 1977-	-
Autor(es): dc.contributor	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática	-
Autor(es): dc.creator	Lucas Filho, Edson Ramiro, 1986-	-
Data de aceite: dc.date.accessioned	2025-09-01T10:42:40Z	-
Data de disponibilização: dc.date.available	2025-09-01T10:42:40Z	-
Data de envio: dc.date.issued	2021-12-15	-
Data de envio: dc.date.issued	2021-12-15	-
Data de envio: dc.date.issued	2019	-
Fonte completa do material: dc.identifier	https://hdl.handle.net/1884/69157	-
Fonte: dc.identifier.uri	http://educapes.capes.gov.br/handle/1884/69157	-
Descrição: dc.description	Orientador: Eduardo Cunha de Almeida	-
Descrição: dc.description	Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 29/06/2020	-
Descrição: dc.description	Inclui referências: p. 98-109	-
Descrição: dc.description	Área de concentração: Ciência da Computação	-
Descrição: dc.description	Resumo: A crescente necessidade de processar grandes quantidades de dados semi-estruturados e nãoestruturados levou ao desenvolvimento de mecanismos de processamento especializados como o MapReduce. O MapReduce é um modelo de programação projetado para processar grandes quantidades de dados semiestruturados de maneira distribuída e paralela. Os sistemas SQLon-Hadoop são interfaces SQL construídas sobre os mecanismos de processamento baseados em MapReduce para consultar grandes quantidades de dados semi-estruturados. No entanto, o número de máquinas, o número de sistemas na pilha de software e os mecanismos de controle fornecidos pelos mecanismos do MapReduce aumentam a complexidade e os custos operacionais de um cluster SQL-on-Hadoop. O aumento do desempenho dos motores de processamento MapReduce é um fator chave que pode ser alcançado delegando a quantidade certa de recursos físicos para suas tarefas. No entanto, usuários e até administradores especializados lutam para entender e ajustar as tarefas MapReduce para obter um desempenho melhor. A falta de conhecimento para ajustar as tarefas MapReduce deu origem a uma linha de pesquisa bem-sucedida sobre o ajuste automático dos parâmetros do MapReduce, originando vários Orientadores de Ajuste. No entanto, o problema de ajustar automaticamente as consultas SQL-no-Hadoop permanece amplamente inexplorado, pois a abordagem atual da aplicação dos Orientadores de Ajuste projetados para MapReduce em consultas SQL-on-Hadoop acarreta em vários problemas. Por exemplo, o processador de consultas do Hive, um sistema SQL-on-Hadoop popular, traduz consultas HiveQL em grafos de tarefas MapReduce, e seria fácil supor que, ajustando as configurações do motor de processamento MapReduce, as consultas HiveQL também se beneficiariam. Entretanto, essa suposição não se aplica quando os Orientadores de Ajuste existentes são aplicados ingenuamente às consultas HiveQL devido a arquitetura do Hive, Hadoop e dos Orientadores de Ajuste. Nesta tese tratamos da questão de como ajustar corretamente as consultas SQL-no-Hadoop. Por "corretamente", entendemos que, ao ajustar as configurações das consultas SQL-no-Hadoop, a geração das configurações deve considerar várias características que estão presentes apenas em tarefas geradas pelos sistemas SQL-no-Hadoop. Essas características incluem: (i) no caso de consultas individuais, todas as tarefas MapReduce que constituem o plano de consulta desta consulta são executadas com configurações idênticas. (ii) apesar da busca e geração das configurações de ajuste serem realizadas para cada tarefa MapReduce, apenas uma configuração de ajuste é selecionada e aplicada à consulta e as demais configurações de ajuste são simplesmente descartadas. (iii) Os Orientadores de Ajuste do Hadoop tratam as funções do MapReduce como caixas-pretas e fazem suposições de modelagem simplificadoras que podem valer para tarefas clássicas do MapReduce (Sort, Grep), mas não são verdadeiras para consultas do tipo SQL como o HiveQL, onde as tarefas contêm vários operadores de álgebra relacional como junções e agregadores. Estendemos o processador de consultas do Hive para ajustar as consultas SQL-no-Hadoop. Esta extensão compreende uma abordagem chamada de ajuste não-uniforme que permite que os sistemas SQL-on-Hadoop tenham um controle mais refinado da configuração das consultas, onde cada tarefa MapReduce recebe uma configuração especializada. Apresentamos um modelo conceitual, chamado assinatura de código, que usa informações estáticas disponíveis antes da execução de cada tafera para mapear tarefas que tenham padrões de consumo de recursos similares. Também apresentamos um cache que armazena configurações de ajuste, geradas por algum Orientadore de Ajuste, e as recicla entre tarefas que possuem consumo de recursos semelhantes. Nossa extensão funciona em conjunto como uma solução única para o ajuste automático de consultas SQL-no-Hadoop. Para validar nossa solução, realizamos um estudo experimental focado no Hive executando sobre o Hadoop porque (i) O Hive é um bom representante dos sistemas SQL-on-Hadoop nativos (como o System-R fez para os sistemas de bancos de dados relacionais); (ii) o Hive e o Hadoop são altamente populares para processamento analítico; e (iii) O ajuste de parâmetros do Hadoop foi estudado extensivamente nos últimos anos. Para preencher o cache de ajuste, empregamos o Starfish, o primeiro Orientador de Ajuste baseado em custo que encontra configurações (quase) ótimas e é o único Orientador de Ajuste disponível ao público para fins de pesquisa acadêmica. Em nossos experimentos, apresentamos que as consultas otimizadas com nossa abordagem de ajuste apresentaram acelerações de até 25%, contrastando com a abordagem atual que degradou o desempenho em várias ocasiões. Especificamente, a abordagem atual de ajuste pode causar variações no tempo de execução entre -171% e 27% em relação à configuração padrão. Mais importante ainda, nosso método de ajuste leva a uma melhor utilização de recursos, diminuindo o uso da CPU e a paginação de memória em até 40%. Nossa abordagem também reduziu a quantidade total de dados gravados em discos em 5×. Nossa abordagem de ajuste tem um cache usado para evitar a recriação de perfis de tarefas MapReduce semelhantes. Nosso cache reduziu a geração de perfils em 50% para a carga de trabalho TPC-H, permitindo até o ajuste parcial de consultas ad-hoc antes de sua execução. Palavras-chave: Sintonia da camada física. Processamento de consulta em MapReduce. SQL-On-Hadoop.	-
Descrição: dc.description	Abstract: The increasing need to process large amounts of semi- and non-structured data has led to the development of specialized processing engines like MapReduce. MapReduce is a programming model designed to process large-scale semi-structured data in a distributed and parallel fashion. SQL-on-Hadoop systems are SQL-like interfaces build on top of MapReduce processing engines to query semi-structured data in large-scale. However, the number of computing nodes, the number of systems in the software stack, and the controlling mechanisms provided by MapReduce engines increase the complexity and the operational costs of maintaining a large SQL-on-Hadoop cluster. Increasing performance of such engines is a key factor that can be achieved by delegating the right amount of physical resources. Yet, regular users and even expert administrators struggle to understand and tune MapReduce jobs to achieve good performance. This skill gap has given rise to a successful line of research on automatically tuning MapReduce parameters, originating several tuning advisors. Yet, the problem of automatically tuning SQL-on-Hadoop queries remains largely unexplored today as the current approach of applying MapReduce tuning advisors direct to SQL-on-Hadoop queries entail a number of problems. For instance, the Hive SQL-on-Hadoop engine compiles HiveQL queries into a workflow of MapReduce jobs, and it would be straightforward to assume that by tuning the underlying Hadoop processing engine, HiveQL queries would benefit as well. However, this assumption does not hold when existing tuning advisors are naively applied to HiveQL queries due to the design choices of Hive, Hadoop, and the tuning advisors. This thesis addresses the question of how to properly tune SQL-on-Hadoop queries? By "properly" we mean, when tuning SQL-on-Hadoop queries, the generation of the tuning setups has to consider several characteristics that are only present in jobs generated by SQL-on-Hadoop systems. These characteristics include: (i) at the level of individual queries, all MapReduce jobs that constitute a query plan are executed with identical configuration settings. (ii) despite profiling and search heuristics being performed in a job-basis to generate tuning setups, only one tuning setup is applied to the query and the remaining tuning setups are simply discarded. (iii) Hadoop tuning advisors treat the MapReduce functions as black boxes and make simplifying modeling assumptions that may hold for classical MapReduce jobs (Sort, Grep), but they are not true for SQL-like queries like HiveQL where jobs contain multiple relational algebra operators like joins and aggregators. We extended the Hive query processor for tune SQL-on-Hadoop queries. This extension comprises an approach called non-uniform tuning that enables SQL-on-Hadoop systems to have a fine-grained control for tuning queries, where jobs receive specialized tuning setups. We present a conceptual model, called code-signature, that uses static information available upfront execution to match jobs with similar resource consumption patterns. We also present a tuning cache that stores tuning setups, generated by third part tuning advisors, and recycle them between jobs that have the similar resource consumption. The extension works together as a single solution for automatic tuning of SQL-on-Hadoop queries. In order to validate our solution, we conduct an experimental study focused on Hive over Hadoop because (i) Hive is a good representative of native SQL-on-Hadoop systems (like System-R did for relational database systems); (ii) both Hive and Hadoop are highly popular for analytical processing; and (iii) Hadoop parameter tuning has been studied extensively in recent years. For populate the Tuning Cache, we employ Starfish, the first cost-based optimizer for finding (near-) optimal configuration parameter settings and the only publicly available tuning advisor for academic research purposes. In our experiments, we present that queries optimized with our tuning approach always presented positive speed ups up to 25%, contrasting the current approach that degraded performance in several occasions. Specifically, the current tuning approach can cause variations in the execution run time between -171% and 27% over default configuration. Most importantly, our tuning method leads to considerable better resource utilization, decreasing CPU usage and Memory paging over 40%. Also reducing the total amount of data written to disks in 5×. Our tuning approach has a Tuning Cache used to avoid reprofiling similar jobs. Our Tuning Cache reduced the profilings in 50% for TPC-H queries, enabling upfront tuning of ad-hoc queries. Keywords: Physical-layer tuning. MapReduce query processing. SQL-On-Hadoop.	-
Formato: dc.format	129 p. : PDF.	-
Formato: dc.format	application/pdf	-
Formato: dc.format	application/pdf	-
Palavras-chave: dc.subject	SQL (Linguagem de programação de computador)	-
Palavras-chave: dc.subject	Ciência da Computação	-
Título: dc.title	Automatic physical layer tuning of mapreduce-based query processing engines	-
Aparece nas coleções:	Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.

O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma:

O Termo de Uso pode ser modificado pela CAPES a qualquer tempo, sem necessidade de notificação prévia, sendo que tais modificações serão válidas a partir da data de sua veiculação neste portal;
Para aprovação de cadastro do usuário ao sistema, a CAPES pode requisitar o fornecimento de informações, haja vista a política de segurança adotada, objetivando resguardar a segurança dos usuários nesse ambiente virtual;
O usuário aceita e declara compreender que, em razão do peculiar ambiente da Internet, a CAPES não poderá garantir que o acesso ao site seja livre de erros ou problemas decorrentes de casos fortuitos, internos ou externos, casos de força maior ou ainda de outros casos não inteiramente sujeitos a controle direto dos administradores do site e, portanto o usuário se obriga a isentar a CAPES de quaisquer reclamações ou indenizações. A CAPES também não se responsabiliza por interrupções, interceptações, invasões, disseminação de vírus ou outros atos ilícitos, típicos e atípicos de ambiente virtual, e de web, dos quais a CAPES não tenha tido intenção deliberada de participar ou praticar;
O usuário aceita e declara compreender que qualquer texto, marca, áudio, imagem, ou conteúdo veiculados no site são protegidos por direitos de propriedade intelectual o qual deve ser respeitado de acordo com a licença concedida pelo respectivo detentor dos referidos direitos, sob pena de apuração das responsabilidades cabíveis;
Desta forma a CAPES se exime de toda e qualquer responsabilidade por eventuais perdas, danos e prejuízos de qualquer natureza decorrentes:
- Do descumprimento da lei, da moral e dos bons costumes, como consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da infração aos direitos de propriedade intelectual e industrial, segredos empresariais, compromissos contratuais de qualquer tipo, direitos à honra, à intimidade pessoal e familiar, à imagem das pessoas, direitos de propriedade e de toda e qualquer natureza pertencentes a um terceiro por consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da falta de veracidade, precisão, exatidão, pertinência e/ou atualidade dos conteúdos;
- Da inadequação para qual seja o propósito, ou da frustração, das expectativas geradas pelos conteúdos;
Exceto quando mencionado explicitamente, ou quando se tratar de citação de material alheio ou ilustração, nos limites estabelecidos pela Lei 9.610/98, todo o Conteúdo textual original do Portal eduCAPES está disponível livremente para leitura, entre outros direitos, conforme definido na licença Creative Commons;
A CAPES não se responsabiliza pelos comentários, opiniões, informações, depoimentos, mensagens, vídeos, textos, imagens, áudios ou qualquer outro tipo de conteúdo que sejam, postados, publicados e disponibilizados através do Portal eduCAPES pelos usuários, sendo a responsabilidade civil e criminal atribuída única e exclusivamente ao autor dos comentários, opiniões, informações, ou mensagens. Todo o conteúdo publicado por usuários são de responsabilidade exclusiva dos mesmos e de caráter completamente independente, sendo que todo e qualquer tipo de opinião, ideal e/ou posição expressados não refletem necessariamente o ponto de vista e a posição do Portal eduCAPES e/ou da CAPES. A CAPES se reserva o direito de armazenar as informações destes autores e/ou Usuários, a fim de viabilizar sua identificação;
O usuário aceita e declara compreender que a CAPES poderá disponibilizar no Portal eduCAPES, links de acesso para outros sites e endereços virtuais administrados, controlados ou operados por terceiros. Qualquer site conectado a partir do eduCAPES não está sob o controle da CAPES;
A CAPES não assume nenhuma responsabilidade ou obrigação por qualquer informação, comunicação ou material encontrado em tais sites, ou em qualquer site conectado a tais sites. A CAPES não assume qualquer responsabilidade pelos serviços ou funcionalidades ali dispostos, sendo a decisão de utilização e a forma de relacionamento com os mesmos de exclusiva responsabilidade do usuário, que inclusive isenta a CAPES de fiscalizar o conteúdo ou zelar pela integridade de tais sites ou endereços virtuais.
O usuário aceita e declara compreender que o acesso a determinadas áreas do site será restrito. Para acessá-las, o usuário deverá fazer o login e cadastrar uma senha de acesso. A senha é individual, sigilosa e intransferível, sendo o usuário o único responsável pela guarda da mesma. O usuário assume toda e qualquer responsabilidade pelo mau uso ou pela utilização da senha por terceiros;
A CAPES reserva o direito de excluir o cadastro, de excluir o material submetido ou proibir o acesso do usuário ao portal eduCAPES no caso de qualquer abuso ou indício de prática ilícita no uso do site ou de qualquer uso não autorizado ou proibido pelo usuário, nos termos da legislação brasileira;
As condições estabelecidas no Termo de Aceite e Uso do Site são regidas pela lei brasileira. Sob nenhuma circunstância o usuário deverá violar qualquer lei usando o portal eduCAPES para propósitos que incluam, mas não limitados a isso, difamação ou perturbação de outros, violação de direitos de propriedade intelectual ou de terceiros, envio de material obsceno ou ofensivo, vírus, arquivos corrompidos, ou outros programas que poderiam danificar ou alterar este site ou os computadores de empresa ou de terceiros;
A CAPES reserva o direito de retirar qualquer conteúdo que infrinja a lei, a moral e os bons costumes nos termos da legislação vigente e também na hipótese de o conteúdo não se coadunar com as finalidades educativas do Portal. A CAPES garante o direito de defesa e contraditório dos usuários. O usuário reconhece que o material enviado por terceiros, que não a CAPES, não é endossado pela mesma.

Concordo e desejo baixar o arquivo
Não concordo e não irei baixar o arquivo

Mostrar registro simples do item Visualizar estatísticas

Denunciar conteúdo impróprio

Você é humano?

Automatic physical layer tuning of mapreduce-based query processing engines