Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log

Picoli, Ivan Luiz

Portal eduCapes
Seta
Nossos Parceiros
Seta
Repositório Institucional - Rede Paraná Acervo
Seta

Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log

Use este link compartilhar ou citar este material: http://educapes.capes.gov.br/handle/1884/38134

Registro completo de metadados

Metadados	Descrição	Idioma
Autor(es): dc.contributor	Almeida, Eduardo Cunha de	-
Autor(es): dc.contributor	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática	-
Autor(es): dc.creator	Picoli, Ivan Luiz	-
Data de aceite: dc.date.accessioned	2019-08-21T22:53:41Z	-
Data de disponibilização: dc.date.available	2019-08-21T22:53:41Z	-
Data de envio: dc.date.issued	2015-05-29	-
Data de envio: dc.date.issued	2015-05-29	-
Data de envio: dc.date.issued	2013	-
Fonte completa do material: dc.identifier	http://hdl.handle.net/1884/38134	-
Fonte: dc.identifier.uri	http://educapes.capes.gov.br/handle/1884/38134	-
Descrição: dc.description	Orientador : Prof. Dr. Eduardo Cunha de Almeida	-
Descrição: dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 26/02/2015	-
Descrição: dc.description	Inclui referências	-
Descrição: dc.description	Resumo: MapReduce vem sendo utilizado amplamente na área de processamento de dados e Data Warehouse. Entre as muitas implementações do MapReduce disponíveis nos dias de hoje, o Apache Hadoop é o mais popular e possui código aberto. Hadoop também é usado amplamente como motor de muitos sistemas de processamento de consultas baseados em SQL, como o Apache Hive e PIG. Nesses sistemas, desenvolvedores podem processar consultas baseadas em SQL utilizando a escalabilidade do MapReduce. Neste contexto, desempenho e escalabilidade estão diretamente ligados aos parâmetros de configuração, que determinam o consumo de recursos e a eficiência do processamento. Hoje, as abordagens de ajuste de parâmetros analisam as tarefas durante sua execução e geram configurações de parâmetros baseadas em dados contidos em arquivos de log. Apesar de aumentar o desempenho, essa abordagem não é capaz de associar tarefas MapReduce similares para aplicar a configuração necessária. Assim, se tem dois problemas: (1) tarefas MapReduce recebem otimizações através de regras preestabelecidas sem se preocupar com a melhor alocação de recursos; (2) sequencias de tarefas MapReduce, como planos de consulta do Hive, recebem a mesma otimização mesmo que diferentes tarefas consumam diferentes recursos (problema nomeado de 'otimização uniforme'). A consequência de ambos os problemas _e a perda de desempenho, e o aumento do tempo de resposta e do consumo de recursos. Nesta dissertação apresenta-se uma abordagem que classifica tarefas MapReduce para aplicar otimizações através da similaridade de recursos automaticamente. Essa abordagem _e capaz de gerar grupos de tarefas que possuam consumo de recursos similares. Cada grupo criado _e associado a uma otimização específica que _e aplicada _as novas tarefas MapReduce. As duas principais contribuições são: (1) uma nova tarefa MapReduce recebe uma otimização apropriada sem a intervenção humana; (2) Tarefas de diferentes grupos recebem diferentes otimizações (abordagem chamada de 'otimização granular'). Experimentos mostram que nossa abordagem reduz o tempo de resposta em até 20% no melhor caso quando o benchmark TPC-H _e executado no Hive e Hadoop. Palavras-chave: Apache Hadoop, MapReduce, Otimização de Banco de Dados, Otimização Hive, Aprendizado de Máquina, Análise de Log	-
Descrição: dc.description	Abstract: MapReduce has been extensively used for data processing and analytics over the past years. Among the many MapReduce implementations available to date, the Apache Hadoop is one of the most popular due to its open source nature. Hadoop has been also used as data processing back-end by many SQL-like query processing systems, such as Apache Hive and PIG. In these systems, developers can leverage the declarative nature of query languages with the scalability of MapReduce processing. The scalability of Hadoop directly depends on proper performance tuning in order to squeeze computer resources for efficient data processing. To date, any Hadoop tuning approach relies on monitoring the execution of running programs for computing tuning setups based on execution data in log _les. While this approach can boost performance, it does not allow associating similar Hadoop programs to a similar tuning setup. This leads to two problems: (1) any upcoming program receives a single pre-computed tuning without any concern to what are the best computing resources to be allocated; (2) chains of running MapReduce programs, such as Hive query plans, tend to receive the same tuning setup, even if they eventually consume different computing resources (this problem is called 'uniform tuning'). The direct consequence of both problems is that they lead to poor performance, increase in response time and in resource consumption. This dissertation presents an approach for classifying MapReduce programs with similar resource consumption into groups. For each group, a specific tuning setup is associated that can be then re-applied to any upcoming program. This approach provides two main contributions: (1) an upcoming program receives a proper tuning on-the-y without human intervention; (2) programs from different groups receive different tuning setups (this approach is called '_ne-grained tuning'). Empirical experimentation shows that this approach reduces response time in 20% in the best case scenario when running the TPC-H benchmark on Hive and Hadoop. Keywords: Apache Hadoop, Apache Hive, MapReduce, Database Tuning, HiveQL Tuning, Machine Learning, Log Analysis	-
Formato: dc.format	58f. : il., tabs., grafs., algumas color.	-
Formato: dc.format	application/pdf	-
Formato: dc.format	application/pdf	-
Relação: dc.relation	Disponível em formato digital	-
Palavras-chave: dc.subject	Ciência da computação	-
Título: dc.title	Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log	-
Tipo de arquivo: dc.type	livro digital	-
Aparece nas coleções:	Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.

O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma:

O Termo de Uso pode ser modificado pela CAPES a qualquer tempo, sem necessidade de notificação prévia, sendo que tais modificações serão válidas a partir da data de sua veiculação neste portal;
Para aprovação de cadastro do usuário ao sistema, a CAPES pode requisitar o fornecimento de informações, haja vista a política de segurança adotada, objetivando resguardar a segurança dos usuários nesse ambiente virtual;
O usuário aceita e declara compreender que, em razão do peculiar ambiente da Internet, a CAPES não poderá garantir que o acesso ao site seja livre de erros ou problemas decorrentes de casos fortuitos, internos ou externos, casos de força maior ou ainda de outros casos não inteiramente sujeitos a controle direto dos administradores do site e, portanto o usuário se obriga a isentar a CAPES de quaisquer reclamações ou indenizações. A CAPES também não se responsabiliza por interrupções, interceptações, invasões, disseminação de vírus ou outros atos ilícitos, típicos e atípicos de ambiente virtual, e de web, dos quais a CAPES não tenha tido intenção deliberada de participar ou praticar;
O usuário aceita e declara compreender que qualquer texto, marca, áudio, imagem, ou conteúdo veiculados no site são protegidos por direitos de propriedade intelectual o qual deve ser respeitado de acordo com a licença concedida pelo respectivo detentor dos referidos direitos, sob pena de apuração das responsabilidades cabíveis;
Desta forma a CAPES se exime de toda e qualquer responsabilidade por eventuais perdas, danos e prejuízos de qualquer natureza decorrentes:
- Do descumprimento da lei, da moral e dos bons costumes, como consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da infração aos direitos de propriedade intelectual e industrial, segredos empresariais, compromissos contratuais de qualquer tipo, direitos à honra, à intimidade pessoal e familiar, à imagem das pessoas, direitos de propriedade e de toda e qualquer natureza pertencentes a um terceiro por consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da falta de veracidade, precisão, exatidão, pertinência e/ou atualidade dos conteúdos;
- Da inadequação para qual seja o propósito, ou da frustração, das expectativas geradas pelos conteúdos;
Exceto quando mencionado explicitamente, ou quando se tratar de citação de material alheio ou ilustração, nos limites estabelecidos pela Lei 9.610/98, todo o Conteúdo textual original do Portal eduCAPES está disponível livremente para leitura, entre outros direitos, conforme definido na licença Creative Commons;
A CAPES não se responsabiliza pelos comentários, opiniões, informações, depoimentos, mensagens, vídeos, textos, imagens, áudios ou qualquer outro tipo de conteúdo que sejam, postados, publicados e disponibilizados através do Portal eduCAPES pelos usuários, sendo a responsabilidade civil e criminal atribuída única e exclusivamente ao autor dos comentários, opiniões, informações, ou mensagens. Todo o conteúdo publicado por usuários são de responsabilidade exclusiva dos mesmos e de caráter completamente independente, sendo que todo e qualquer tipo de opinião, ideal e/ou posição expressados não refletem necessariamente o ponto de vista e a posição do Portal eduCAPES e/ou da CAPES. A CAPES se reserva o direito de armazenar as informações destes autores e/ou Usuários, a fim de viabilizar sua identificação;
O usuário aceita e declara compreender que a CAPES poderá disponibilizar no Portal eduCAPES, links de acesso para outros sites e endereços virtuais administrados, controlados ou operados por terceiros. Qualquer site conectado a partir do eduCAPES não está sob o controle da CAPES;
A CAPES não assume nenhuma responsabilidade ou obrigação por qualquer informação, comunicação ou material encontrado em tais sites, ou em qualquer site conectado a tais sites. A CAPES não assume qualquer responsabilidade pelos serviços ou funcionalidades ali dispostos, sendo a decisão de utilização e a forma de relacionamento com os mesmos de exclusiva responsabilidade do usuário, que inclusive isenta a CAPES de fiscalizar o conteúdo ou zelar pela integridade de tais sites ou endereços virtuais.
O usuário aceita e declara compreender que o acesso a determinadas áreas do site será restrito. Para acessá-las, o usuário deverá fazer o login e cadastrar uma senha de acesso. A senha é individual, sigilosa e intransferível, sendo o usuário o único responsável pela guarda da mesma. O usuário assume toda e qualquer responsabilidade pelo mau uso ou pela utilização da senha por terceiros;
A CAPES reserva o direito de excluir o cadastro, de excluir o material submetido ou proibir o acesso do usuário ao portal eduCAPES no caso de qualquer abuso ou indício de prática ilícita no uso do site ou de qualquer uso não autorizado ou proibido pelo usuário, nos termos da legislação brasileira;
As condições estabelecidas no Termo de Aceite e Uso do Site são regidas pela lei brasileira. Sob nenhuma circunstância o usuário deverá violar qualquer lei usando o portal eduCAPES para propósitos que incluam, mas não limitados a isso, difamação ou perturbação de outros, violação de direitos de propriedade intelectual ou de terceiros, envio de material obsceno ou ofensivo, vírus, arquivos corrompidos, ou outros programas que poderiam danificar ou alterar este site ou os computadores de empresa ou de terceiros;
A CAPES reserva o direito de retirar qualquer conteúdo que infrinja a lei, a moral e os bons costumes nos termos da legislação vigente e também na hipótese de o conteúdo não se coadunar com as finalidades educativas do Portal. A CAPES garante o direito de defesa e contraditório dos usuários. O usuário reconhece que o material enviado por terceiros, que não a CAPES, não é endossado pela mesma.

Concordo e desejo baixar o arquivo
Não concordo e não irei baixar o arquivo

Mostrar registro simples do item Visualizar estatísticas

Denunciar conteúdo impróprio

Você é humano?

Uma abordagem de classificação não supervisionada de cargas de trabalho de sistemas analíticos em Apache Hadoop através de análise de log