Avaliação de desempenho em aglomerados de PCs interligados por Ethernet

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorHexsel, Roberto, 1960--
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática-
Autor(es): dc.creatorStival, Marcelo Loyola-
Data de aceite: dc.date.accessioned2025-09-01T11:07:49Z-
Data de disponibilização: dc.date.available2025-09-01T11:07:49Z-
Data de envio: dc.date.issued2024-10-23-
Data de envio: dc.date.issued2024-10-23-
Data de envio: dc.date.issued2006-
Fonte completa do material: dc.identifierhttps://hdl.handle.net/1884/8812-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/8812-
Descrição: dc.descriptionOrientador: Roberto André Hexsel-
Descrição: dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 2006-
Descrição: dc.descriptionInclui bibliografia-
Descrição: dc.descriptionResumo: Este trabalho apresenta uma avaliação de desempenho de um aglomerado de PCs interligados por rede Ethernet, que empregam o padrão MPI para troca de mensagens. São discutidos diversos aspectos que podem guiar o projeto de aplicações paralelas, assim como comparados diferentes parâmetros – outros além da largura de banda e da latência, normalmente usados na avaliação de sistemas de comunicação. A análise apresentada neste trabalho tem como objetivo medir o desempenho que é exposto para as aplicações pela biblioteca de alto nível, e que resulta de complexas interações de diversos componentes do sistema. O modelo LogP é usado como base para a análise desenvolvida neste trabalho, e algumas extensões do modelo propostas anteriormente também são discutidas. São definidos os testes usados para medição dos parâmetros que caracterizam o sistema, destacando-se a necessidade de considerar a semântica das primitivas MPI para obter resultados mais precisos. Técnicas de programação também são avaliadas, em particular técnicas de sobreposição de comunicação com computação – que têm papel fundamental em ambientes em que os custos de comunicação são elevados. Algumas das ferramentas usadas para medir o desempenho do sistema de comunicação foram estendidas com o desenvolvimento de novos programas de teste, para que seja possível avaliar a sobreposição de comunicação com computação, e a sobrecarga de processamento envolvido com comunicação. Os testes mostram que o desempenho exposto pelo MPI para as aplicações fica muito abaixo da capacidade nominal da rede – a largura de banda é da ordem de 350 Mbps em uma rede de 1 Gbps. São avaliadas duas implementações do padrão MPI, MPICH2 e OPENMPI, bem como o protocolo LLC como camada de transporte da biblioteca OPENMPI, em substituição ao TCP/IP com o objetivo de diminuir a sobrecarga de processamento. Para mensagens pequenas, o desempenho da biblioteca OPENMPI com protocolo TCP é pior que o desempenho da biblioteca MPICH2. A diferença é da ordem de 17% para mensagens entre 1 e 32 bytes e diminui com o tamanho da mensagem até que tornam-se similares para mensagens de 8kB. Para mensagens maiores que 8kB, o desempenho da biblioteca OPENMPI é melhor, e a diferença chega a 7% com mensagens de 256kB. O protocolo LLC apresentou bom ganho de desempenho em relação ao TCP/IP, que para mensagens pequenas é da ordem de 7% e chega a 12% com mensagens de 16kB. Dois kernels científicos, FFT e Radix, também são usados na análise de desempenho com o objetivo de avaliar a eficiência de técnicas de sobreposição da comunicação com computação. Foram comparadas versões multi-threaded e versões baseadas em primitivas não-bloqueantes. O kernel Radix tem padrão de comunicação irregular, e obteve ganho de desempenho da ordem de 50% com o uso de múltiplos threads. O FFT mostrou-se mais eficiente com o uso de primitivas não-bloqueantes na maioria dos casos, mas os resultados dependem do tamanho da entrada e do número de processos.-
Descrição: dc.descriptionAbstract: This work presents a low-level performance evaluation of an Ethernet cluster of workstations that uses MPI as a message passing environment. The evaluation focuses on the communication system, and considers a set of parameters wider than the usual bandwidth and latency. The main objective of this work is to measure the performance exposed to the applications by the high-level software library, which depends on the complex interactions of the components of the system. The LogP model and some extensions proposed elsewhere are used as a basis for the analysis presented here. The tests used to measure the parameters that characterize the system are described, and the importance of taking into account the behavior of MPI primitives is emphasized. Overlap of communication with computation is fundamental to improve the performance of parallel applications targeted to clusters of workstations because of the communication being so expensive in these systems. This work evaluates techniques that provide some level of overlap of communication with computation, and describes the tests used to measure the opportunity of overlap exposed by the system. A set of tools were used to evaluate the system with focus on communication costs, and new tests were implemented to assess communication overlap and software overhead. The results show that the performance exposed by the high-level library is well below network capacity. The bandwidth attainable by the applications on top of MPI is around 350Mbps on a 1Gbps network. Two implementations of the MPI standard are evaluated (MPICH2 and OPENMPI), as well as the LLC and TCP protocols as the transport layerof OPENMPI. When using short messages, the MPICH2 library performs better than OPENMPI with the TCP protocol. The difference is about 17% for messages of length between 1 and 32 bytes and it becomes smaller when message size increases. The performance is virtually the same for messages of 8kB. For messages longer than 8kB, OPENMPI performs better, with a gain of around 7% for messages of 256kB. The LLC protocol shows a large gain in performance when compared to TCP as the transport layer of OPENMPI. The difference ranges from 7% for short messages to 12% for messages of 16kB. Two scientific kernels, FFT and Radix Sort, were used to compare a multi-threaded approach to the use of non-blocking operations to assess the overlap of communication with computation. The Radix Sort kernel has an irregular communication pattern, and shows an improvement close to 50% with a multi-threaded approach. The FFT kernel performs better with the non-blocking operations on most cases, but its performance depends on the problem size and the number of process.-
Formato: dc.format113f. : il., grafs.-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Relação: dc.relationDisponível em formato digital-
Palavras-chave: dc.subjectProcessamento paralelo (Computadores)-
Palavras-chave: dc.subjectProcessamento eletronico de dados - Processamento-
Palavras-chave: dc.subjectCiência da computação-
Título: dc.titleAvaliação de desempenho em aglomerados de PCs interligados por Ethernet-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.