Predictive image compression using Autoencoders

Jung, Henrique Costa

Predictive image compression using Autoencoders

Use este link compartilhar ou citar este material: http://educapes.capes.gov.br/handle/capes/908809

Registro completo de metadados

Metadados	Descrição	Idioma
Autor(es): dc.contributor	Espinoza, Bruno Luiggi Macchiavello	-
Autor(es): dc.creator	Jung, Henrique Costa	-
Data de aceite: dc.date.accessioned	2024-10-23T16:27:07Z	-
Data de disponibilização: dc.date.available	2024-10-23T16:27:07Z	-
Data de envio: dc.date.issued	2021-07-09	-
Data de envio: dc.date.issued	2021-07-09	-
Data de envio: dc.date.issued	2021-07-09	-
Data de envio: dc.date.issued	2021-02-09	-
Fonte completa do material: dc.identifier	https://repositorio.unb.br/handle/10482/41369	-
Fonte: dc.identifier.uri	http://educapes.capes.gov.br/handle/capes/908809	-
Descrição: dc.description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.	-
Descrição: dc.description	Este trabalho discute maneiras de integrar técnicas de Predição Intra, um conceito clás- sico de algoritmos para compressão de imagem, com os novos codecs que vem surgindo baseados no uso de Redes Neurais. No Capitulo 1, é introduzido o problema, e é discutido como o texto vai ser estru- turado. Primeiro apresentamos algumas justificativas para o estudo de novos codecs, e descrevemos como codecs baseados em redes neurais tem obtidos bom resultados, e que a ideia de predição intra tem sido pouco explorada por eles. Depois disso, fazemos um detalhamento dos objetivos específicos do texto, e por fim descrevemos a organização dos demais capítulos. O segundo capítulo, que trata dos Fundamentos, busca cobrir a maioria dos conceitos usados no restante do texto. Para isso, ele é dividido em 4 sessões. Na preimeira sessão, são apresentados conceitos básicos de Teoria da Informação: Entropia, Distância de Kullback- Leibler, e Codificadores Aritméticos. A segunda sessão trata dos conceitos de compressão de imagem. Primeiro, são discutidas as etapas de um codec de imagens genérico: DPCM, Transformada, Quantização, Codificação e as respectivas eetapas inversas. Depois disso, é dado um detalhe maior ao funcionamento das técnicas de DPCM, divididas em Predição Intra e Predição Inter. Ainda na sessão de Compressão de Imagens, discutimos também a Optimização Taxa-Distorção (RDO), e como nem todos os codecs de fato fazem esse tipo de otimização. Por fim, discutimos as duas métricas que usamos para avaliar nossos codecs, PSNR e MS-SSIM. A próxima sessão do capítulo de Fundamento trata de Redes Neurais Artificiais. Dis- cutimos como elas são treinadas, as funções de ativação usadas, e as camadas que de Redes Neurais que usamos em nossos experimentos. Por fim, temos uma sessão sobre Au- toencoders, que são um tipo específico de rede neural usado em problemas de compressão de imagens. Nessa sessão discutimos também as diferentes formas de quantizar as repre- setações que são obtidas dos Autoencoders, e que se tornam de fato nossa representação binária para as imagens. O terceiro capítulo trata da Revisão da Literatura, e começa com uma sessão sobre Au- toencoders usados para Inpainting. Inpainting é um problema clássico de processamento de imagens, que geralmente surge durante edições de imagens, onde se busca preencher um pedaço de uma imagem que não esteja mais presente com algo que possua algum sen- tido. A ideia de usar Redes Neurais para fazer Inpainting surge com [Pathak et al., 2016], e é posteriormente aprimorada por [Iizuka et al., 2017] e [Yu et al., 2018]. Para o nosso trabalho, contudo, o maior foco é em [Minnen et al., 2017], que teve a ideia de usar redes para inpainting no lugar de métodos de predição intra tradicionais. A segunda sessão do Capítulo 3 trata sobre Autoencoders usados para Compressão, e é dividida entre Autoencoders Recursivos e Iterativos e os baseados em Modelos Varia- cionais. Autoencoders Iterativos são descritos em [Toderici et al., 2016], que inicia a ideia de montar um codec com base em Redes Neurais com uma ideia simples de colocar várias camadas em sequência, buscando reconstruir na saída da rede a imagem de en- trada, mas com uma camada binarizadora no meio. Como esses resultados não são bons, ele conclui que é melhor encadear várias dessas redes, o que seria o "codec it- erativo". Para melhorar esse resultado, ao invés de encadear várias redes, ele resolve usar apenas uma única rede, mas que possui camadas recorrentes LSTM, que possuem memória. Esse é o chamado codec recursivo. Em seguida, detalhamos mais dois artigos, [Toderici et al., 2017] e [Johnston et al., 2018], que elaboram um pouco mais essas ideias, incorporando mais módulos para melhorar os resultados, e passando as imagens mais vezes pela rede ("priming") antes de obter o resultado da codificação. Por fim, discutimos novamente o artigo [Minnen et al., 2017], que usa uma rede de inpainting para realizar predição intra e detalhando que o codec principal usado é um codec recursivo. Este último artigo serve de base para o artigo [Jung et al., 2020], que detalha nossos experimentos com codecs recursivos. A subsessão seguinte trata de Autoencoders para compressão baseados em Modelos Variacionais. Modelos Variacionais, como definidos por [Kingma and Welling, 2014], são modelos de Autoencoders em que se supõe que a distribuição dos dados que estão sendo analisados possui na verdade uma distribuição latente mais simples, e que pode ser aprox- imada por uma distribuição normal de média zero e variância unitária. Quando criamos um modelo variacional, queremos descobrir descobrir uma transformada da distribuição que estamos lidando para a distribuição normal, e uma transformada inversa que leve da distribuição normal de volta para a que estamos lidando. [Ballé et al., 2016] nota que existe uma analogia entre modelos variacionais e otimização taxa-distorção, e cria um modelo para compressão de imagens para fazer isso. Ele minimiza conjuntamente a entropia da distribuição latente, já criando um modelo para o codificador aritmético, e a distorção da imagem reconstruída. Um dos motivos para isso dar tão certo é o uso de camadas GDN, e suas respectivas inversas, IGDN. Camadas GDN tem o efeito de gaussianizar o sinal de entrada, e aproximá-lo de uma transformada unitária. vii Seguindo nessa linha, [Ballé et al., 2018] adiciona uma segunda modelagem de hiper- parametros sobre o código, pois ele observa que há ainda uma grande diferença espa- cial nos códigos obtidos, correlacionada com a imagem. Por fim, discutimos também [Theis et al., 2017], que tem ideias similares, mas cujo ponto mais interessante é o uso de uma multiplicação por escalares durante a quantização. Esse procedimento permite obter vários pontos na curva de RDO a partir de um único treinamento. No Capítulo 4, que trata da Metodologia usada, buscamos detalhar os experimen- tos que fizemos. Primeiro, descrevemos dois modelos de Autoencoders para Inpainting que usamos. O primeiro modelo possui a mesma arquitetura que o modelo usado por [Minnen et al., 2017], e possui como entrada um patch de tamanho 64 × 64, em que a parte inferior direita é ocultada, e como saída esperada gerar essa mesma parte inferior direita que foi ocultada na entrada. O segundo modelo possui uma arquitetura similar, mas com a diferença que é adicionado um patch adicional no canto superior direito, e os patchs de entrada são rearranjados no formato 4 × 32 × 32. Por causa dessa mudança, as primeiras camadas do modelo são ajustadas. Na segunda sessão do Capítulo 4, descrevemos os experimentos feitos em [Jung et al., 2020], lidando com Autoencoders para Compressão Recursivos. Para analisar os efeitos da predição intra, usamos 3 modelos. O primeiro é baseado na arquitetura base de [Toderici et al., 2017], e não possui modelos de predição intra. O segundo modelo usa a mesma arquitetura de base, mas realiza predição intra usando o primeiro Autoencoder para Inpainting descrito na sessão anterior, e codifica apenas resíduos. O terceiro modelo realiza predições intra usando os dois Autoencoders para Inpainting descritos na sessão anterior, além de previsões intra do HEVC. Ele escolhe a melhor predição, e codifica ela. Devido à arquitetura desses modelos, devemos ressaltar que eles trabalham com patches de tamanho fixo 32 × 32. Por fim, na terceira sessão, descrevemos os codecs baseados em modelos variacionais que usamos. Como no caso dos codecs recursivos, usamos três modelos. O primeiro deles não faz uso de predição intra, e possui uma arquitetura muita semelhante àquela usada por [Ballé et al., 2016], com um pequeno ajuste no tamanho dos filtros. O segundo modelo faz uso de predição intra, e possui na entrada o nosso primeiro modelo de Autoencoder para Inpainting. Uma limitação desse segundo modelo é que ele é limitado a usar um patch size de tamanho 32 × 32, por causa do modelo de predição intra usado. Buscando contornar essa limitação, nosso terceiro modelo também possui um modelo de predição intra, mas este é completamente convolucional, e treinado junto com o codec principal. Por causa disso, o terceiro modelo, assim como o primeiro, não possui limitações para o patch size usado. No Capítulo 5, discutimos os resultados dos experimentos propostos no capítulo 4. viii Primeiro, descrevemos como construímos nosso dataset de treinamento, e como é nosso dataset de testes. Em seguida, descrevemos os resultados do nosso Autoencoder para Inpainting, comparando sua performance sozinho contra os modos intra tradicionais do HEVC. Em seguida, descrevemos os resultados dos nossos codecs recursivos. Começamos primeiro fazendo uma análsie da performance do nosso codec base sem predição intra ao longo do treinamento, e chegamos à conclusão que podemos treinar esse tipo de modelo por cerca de 300,000 iterações, pois a partir desse ponto já começa a surgir uma saturação das capacidades do modelo. Em seguida, comparamos as curvas de PSNR e MS-SSIM para os 3 modelos recursivos. A conclusão que chegamos é que o modelo com apenas um modo intra possui resultados piores no geral, mas que o modelo com multiplos modos possui resultados razoáveis, especialmente se considerarmos as taxas mais baixas. Isso acontece porque no modelo de um único modo, caso a predição gerada seja ruim, o modelo acaba se esforçando para consertar ela. Para melhorar os resultados dos nossos codecs recursivos, resolvemos usar um algoritmo de alocação de bits, em que alocamos bits baseados em limiares de PSNR, mas com um parâmetro adicional que decide se vale a pena continuar gastando bits com um dado patch da imagem. Usando esse algoritmo de alocação, temos uma melhora expressiva dos resultados dos codecs recursivos. Na sessão seguinte, analiamos os resultados dos nossos codecs variacionais. Primeiro, fazemos um teste de duração do treinamento, e observamos que começa a haver uma saturação do codec em cerca de um milhão de iterações. Com esse resultado, fazemos uma segunda análise, comparando a relação do patch size de treinamento com o patch size usado na fase de testes. Essa análise nos diz que, exceto por patch sizes muito pequenos, não há diferença significaiva em usar patch sizes diferentes durante treinamento e teste. Um fator inusitado, que temos que ressaltar, é que os pontos indexados com lambda mais baixo, 0.0001, para os codecs variacionais com predição intra que usa um modelo pré-treinado, e aquele com a predição intra treinada junto com o modelo, mas usando patches de tamanho 64, possuem valores muito piores que o esperado. Seria esperado que eles tivessem a menor bpp, do modelo, mas na verdade a bpp deles é bastante alta. Nossa hipótese para esse resultado é que nessas taxas tão baixas, onde em muitos casos nem mesmo a cor é codificada, o modelo de predição intra, que é treinado com imagens natu- rais, não consegue funcionar mais, e por isso acontece um colapso do modelo, resultando em taxas elevadas. Esses pontos, onde o codec não funciona, são ignorados nos demais resultados, já que não são úteis na prática. Comparando os resultados dos codecs, propriamente ditos, o que notamos é que o codec que usa um modelo para predição intra pré-treinado tem resultados muito piores que o codec variacional sem predição intra. Já o modelo em que a predição intra é treinada junto com o codec possui resultados semelhantes ao codec sem predição intra, mas com ix resultados um pouco melhores para baixas taxas. Por fim, comparamos os melhores resultados dos nossos codecs recursivos e variacionais entre si, e contra os codecs JPEG e JPEG2000. O que podemos ver é que os codecs recursivos, usando o algoritmo de alocação de bits, possuem resultados melhores que os do JPEG tradicional, porém inferiores aos do JPEG2000. Os codecs variacionais, contudo, conseguem obter resultados melhores do que o JPEG 2000. Em baixas taxas, particularmente, o codec variacional com o modelo treinado em conjunto obtém bons resultados. O último capítulo trata das conclusões e possíveis continuações do trabalho. Com base nos nossos resultados, vemos que existem evidências de que o uso de predição intra pode melhorar o resultado de codecs de imagens usando redes neurais, principalmente para taxas baixas. Esses resultados, contudo precisam ser mais bem explorados. Na sessão de trabalhos futuros, sugerimos modificar os nossos codecs baseados em modelos variacionais para introduzir a modelagem por hiperprior usada por [Ballé et al., 2018], ou possivelmente extender ainda mais usando um modelo Autoregressivo sobre os códigos. Outro ponto que seria interessante seria fazer um treinamento por etapas para lidar com o problema de moving target dos codecs de predição intra, já que eles são treinados com imagens naturais, mas durante a fase de testes são usados com imagens distorcidas. Isso inclusive poderia resolver os pontos do codec em que ele para de funcionar. Da parte dos Codecs Recursivos, o maior problema a ser resolvido é deixar o codec mais rápido, já que atualmente a predição intra deve ser feita sequencialmente. Uma possibilidade seria ignorar efeitos de drifting, e gerar as predições intra usando a imagem original. Um outro ponto que pode melhorar esses codecs seria adaptar sua arquitetura para uma completamente convolucional, e que permita usar patches de tamanho variável.	-
Descrição: dc.description	This work discusses if using intra prediction can improve the results of codecs that are based on Neural Networks (also called learned image codecs. It begins with a review of the basic principles of both image compression and neural networks, which is followed with a review of the state-of-the-art neural networks used for compression, which are called au- toencoders. In Chapter 4, we describe our methodology, describing the models we tested, with or without intra prediction. In Chapter 5, we detail the results of our experiments, and in Chapter 6 we present our conclusions that intra prediction can improve the results of learned image codecs, especially at lower rates, but that these results need to be further studied.	-
Formato: dc.format	application/pdf	-
Direitos: dc.rights	Acesso Aberto	-
Direitos: dc.rights	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	-
Palavras-chave: dc.subject	Redes neurais (Computação)	-
Palavras-chave: dc.subject	Inteligência artificial	-
Palavras-chave: dc.subject	Predição intra	-
Título: dc.title	Predictive image compression using Autoencoders	-
Tipo de arquivo: dc.type	livro digital	-
Aparece nas coleções:	Repositório Institucional – UNB

Não existem arquivos associados a este item.

O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma:

O Termo de Uso pode ser modificado pela CAPES a qualquer tempo, sem necessidade de notificação prévia, sendo que tais modificações serão válidas a partir da data de sua veiculação neste portal;
Para aprovação de cadastro do usuário ao sistema, a CAPES pode requisitar o fornecimento de informações, haja vista a política de segurança adotada, objetivando resguardar a segurança dos usuários nesse ambiente virtual;
O usuário aceita e declara compreender que, em razão do peculiar ambiente da Internet, a CAPES não poderá garantir que o acesso ao site seja livre de erros ou problemas decorrentes de casos fortuitos, internos ou externos, casos de força maior ou ainda de outros casos não inteiramente sujeitos a controle direto dos administradores do site e, portanto o usuário se obriga a isentar a CAPES de quaisquer reclamações ou indenizações. A CAPES também não se responsabiliza por interrupções, interceptações, invasões, disseminação de vírus ou outros atos ilícitos, típicos e atípicos de ambiente virtual, e de web, dos quais a CAPES não tenha tido intenção deliberada de participar ou praticar;
O usuário aceita e declara compreender que qualquer texto, marca, áudio, imagem, ou conteúdo veiculados no site são protegidos por direitos de propriedade intelectual o qual deve ser respeitado de acordo com a licença concedida pelo respectivo detentor dos referidos direitos, sob pena de apuração das responsabilidades cabíveis;
Desta forma a CAPES se exime de toda e qualquer responsabilidade por eventuais perdas, danos e prejuízos de qualquer natureza decorrentes:
- Do descumprimento da lei, da moral e dos bons costumes, como consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da infração aos direitos de propriedade intelectual e industrial, segredos empresariais, compromissos contratuais de qualquer tipo, direitos à honra, à intimidade pessoal e familiar, à imagem das pessoas, direitos de propriedade e de toda e qualquer natureza pertencentes a um terceiro por consequência da transmissão, difusão, armazenamento, disponibilização, recepção, obtenção ou acesso aos conteúdos;
- Da falta de veracidade, precisão, exatidão, pertinência e/ou atualidade dos conteúdos;
- Da inadequação para qual seja o propósito, ou da frustração, das expectativas geradas pelos conteúdos;
Exceto quando mencionado explicitamente, ou quando se tratar de citação de material alheio ou ilustração, nos limites estabelecidos pela Lei 9.610/98, todo o Conteúdo textual original do Portal eduCAPES está disponível livremente para leitura, entre outros direitos, conforme definido na licença Creative Commons;
A CAPES não se responsabiliza pelos comentários, opiniões, informações, depoimentos, mensagens, vídeos, textos, imagens, áudios ou qualquer outro tipo de conteúdo que sejam, postados, publicados e disponibilizados através do Portal eduCAPES pelos usuários, sendo a responsabilidade civil e criminal atribuída única e exclusivamente ao autor dos comentários, opiniões, informações, ou mensagens. Todo o conteúdo publicado por usuários são de responsabilidade exclusiva dos mesmos e de caráter completamente independente, sendo que todo e qualquer tipo de opinião, ideal e/ou posição expressados não refletem necessariamente o ponto de vista e a posição do Portal eduCAPES e/ou da CAPES. A CAPES se reserva o direito de armazenar as informações destes autores e/ou Usuários, a fim de viabilizar sua identificação;
O usuário aceita e declara compreender que a CAPES poderá disponibilizar no Portal eduCAPES, links de acesso para outros sites e endereços virtuais administrados, controlados ou operados por terceiros. Qualquer site conectado a partir do eduCAPES não está sob o controle da CAPES;
A CAPES não assume nenhuma responsabilidade ou obrigação por qualquer informação, comunicação ou material encontrado em tais sites, ou em qualquer site conectado a tais sites. A CAPES não assume qualquer responsabilidade pelos serviços ou funcionalidades ali dispostos, sendo a decisão de utilização e a forma de relacionamento com os mesmos de exclusiva responsabilidade do usuário, que inclusive isenta a CAPES de fiscalizar o conteúdo ou zelar pela integridade de tais sites ou endereços virtuais.
O usuário aceita e declara compreender que o acesso a determinadas áreas do site será restrito. Para acessá-las, o usuário deverá fazer o login e cadastrar uma senha de acesso. A senha é individual, sigilosa e intransferível, sendo o usuário o único responsável pela guarda da mesma. O usuário assume toda e qualquer responsabilidade pelo mau uso ou pela utilização da senha por terceiros;
A CAPES reserva o direito de excluir o cadastro, de excluir o material submetido ou proibir o acesso do usuário ao portal eduCAPES no caso de qualquer abuso ou indício de prática ilícita no uso do site ou de qualquer uso não autorizado ou proibido pelo usuário, nos termos da legislação brasileira;
As condições estabelecidas no Termo de Aceite e Uso do Site são regidas pela lei brasileira. Sob nenhuma circunstância o usuário deverá violar qualquer lei usando o portal eduCAPES para propósitos que incluam, mas não limitados a isso, difamação ou perturbação de outros, violação de direitos de propriedade intelectual ou de terceiros, envio de material obsceno ou ofensivo, vírus, arquivos corrompidos, ou outros programas que poderiam danificar ou alterar este site ou os computadores de empresa ou de terceiros;
A CAPES reserva o direito de retirar qualquer conteúdo que infrinja a lei, a moral e os bons costumes nos termos da legislação vigente e também na hipótese de o conteúdo não se coadunar com as finalidades educativas do Portal. A CAPES garante o direito de defesa e contraditório dos usuários. O usuário reconhece que o material enviado por terceiros, que não a CAPES, não é endossado pela mesma.

Concordo e desejo baixar o arquivo
Não concordo e não irei baixar o arquivo

Mostrar registro simples do item Visualizar estatísticas

Denunciar conteúdo impróprio

Você é humano?

Predictive image compression using Autoencoders