Sketch-Based multimodal image retrieval using deep learning

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorLopes, Heitor Silverio-
Autor(es): dc.contributorhttps://orcid.org/0000-0003-3984-1432-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4045818083957064-
Autor(es): dc.contributorGabardo, Ademir Cristiano-
Autor(es): dc.contributorhttp://lattes.cnpq.br/9872210667199371-
Autor(es): dc.contributorLopes, Heitor Silverio-
Autor(es): dc.contributorhttps://orcid.org/0000-0003-3984-1432-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4045818083957064-
Autor(es): dc.contributorDorini, Leyza Elmeri Baldo-
Autor(es): dc.contributorhttps://orcid.org/0000-0002-0483-3435-
Autor(es): dc.contributorhttp://lattes.cnpq.br/5726947194230379-
Autor(es): dc.contributorRibeiro, Manasses-
Autor(es): dc.contributorhttps://orcid.org/0000-0002-7526-5092-
Autor(es): dc.contributorhttp://lattes.cnpq.br/6475893755893056-
Autor(es): dc.creatorBerno, Brenda Cinthya Solari-
Data de aceite: dc.date.accessioned2022-02-21T21:58:00Z-
Data de disponibilização: dc.date.available2022-02-21T21:58:00Z-
Data de envio: dc.date.issued2021-07-06-
Data de envio: dc.date.issued2021-07-06-
Data de envio: dc.date.issued2021-05-21-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/25496-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/664755-
Descrição: dc.descriptionThe constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities.-
Descrição: dc.descriptionO crescimento constante dos dados multimídia gerados todos os dias torna cada vez mais difícil recuperá-los. O Google é conhecido por fazer um bom trabalho de recuperação de documentos pesquisando correspondências de palavras-chave. No entanto, os dados multimídia dificilmente contêm palavras-chave que os identificam. O objetivo principal deste trabalho é recuperar uma imagem fotográfica usando outra modalidade diferente da foto, tal como um esboço. Um esboço é diferente de uma foto pois é um conjunto de linhas desenhadas a mão, e cores e textura são perdidos, quando comparado com uma foto que é uma representação visual mais complexa representando o mundo real. O estudo de caso para o método proposto é a recuperação de fotos de tatuagens com base em esboços. Devido à falta de dados adequados para este estudo, foi criado um novo conjunto de dados de esboços e imagens de tatuagens. O modelo proposto consiste de uma rede neural siamesa que recebe como entrada características visuais, previamente extraídas de cada modalidade, para aprender uma representação ótima para fotos e esboços dentro de um espaço incorporado, onde a imagem de uma classe está próxima ao esboço da mesma classe. Duas funções de custo foram testadas, e os experimentos mostraram que, para a recuperação de imagens, a função de perda de contraste obteve melhores resultados do que a função de perda tripla. Embora a quantidade de dados fosse limitada, nos experimentos de recuperação de imagens foi alcançada a precisão de 85% para nosso conjunto de dados no top-5 e 85% para Sketchy no top-10. Foi observado que os resultados da recuperação dependem muito da qualidade e diversidade dos dados usados para treinamento da rede, especialmente a respeito da recuperação baseada em esboços, a qual, por sua vez, depende da habilidade de desenhar do usuário. De maneira geral, os métodos propostos são promissores para o problema, e os resultados encorajam a continuidade da pesquisa. Trabalhos futuros incluirão a extensão do conjunto de dados proposto (imagens de tatuagens e esboços) e, também, experimentos com outras modalidades.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languageen-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherCuritiba-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsopenAccess-
Direitos: dc.rightshttp://creativecommons.org/licenses/by/4.0/-
Palavras-chave: dc.subjectSistemas multimídia-
Palavras-chave: dc.subjectRecuperação de dados (Computação)-
Palavras-chave: dc.subjectSistemas de recuperação da informação-
Palavras-chave: dc.subjectRedes neurais (Computação)-
Palavras-chave: dc.subjectVisão Computacional-
Palavras-chave: dc.subjectAprendizado do computador-
Palavras-chave: dc.subjectTatuagem - Imagem-
Palavras-chave: dc.subjectMultimedia systems-
Palavras-chave: dc.subjectData recovery (Computer science)-
Palavras-chave: dc.subjectInformation storage and retrieval systems-
Palavras-chave: dc.subjectNeural networks (Computer science)-
Palavras-chave: dc.subjectComputer vision-
Palavras-chave: dc.subjectMachine learning-
Palavras-chave: dc.subjectTattooing - Imaging-
Palavras-chave: dc.subjectCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO-
Palavras-chave: dc.subjectEngenharia Elétrica-
Título: dc.titleSketch-Based multimodal image retrieval using deep learning-
Título: dc.titleRecuperação de imagem multimodal baseada em esboço usando deep learning-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.