Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorNassu, Bogdan Tomoyuki-
Autor(es): dc.contributorhttps://orcid.org/0000-0001-6441-8543-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4592104393315780-
Autor(es): dc.contributorNassu, Bogdan Tomoyuki-
Autor(es): dc.contributorhttps://orcid.org/0000-0001-6441-8543-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4592104393315780-
Autor(es): dc.contributorNavarro, Pedro Luis Kantek Garcia-
Autor(es): dc.contributorhttp://lattes.cnpq.br/7330616928412664-
Autor(es): dc.contributorSilva, Ricardo Dutra da-
Autor(es): dc.contributorhttps://orcid.org/0000-0002-8002-8411-
Autor(es): dc.contributorhttp://lattes.cnpq.br/8512085741397097-
Autor(es): dc.creatorWamser, Lucas Holtz-
Data de aceite: dc.date.accessioned2025-08-29T12:40:32Z-
Data de disponibilização: dc.date.available2025-08-29T12:40:32Z-
Data de envio: dc.date.issued2024-01-14-
Data de envio: dc.date.issued2024-01-14-
Data de envio: dc.date.issued2023-11-27-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/33178-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1099805-
Descrição: dc.descriptionThe selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates.-
Descrição: dc.descriptionA seleção de fotografias de um evento de formatura é uma tarefa essencial para empresas que organizam tais eventos, pois a venda de álbuns personalizados é parte importante da sua arrecadação. Tendo isso em mente, o presente trabalho se concentra na aplicação de redes neurais pré-treinadas para auxiliar a organização de álbuns de formatura, explorando a legendagem automática de imagens e a identificação do sujeito principal. O estudo começa com uma análise comparativa de três abordagens baseadas em deep learning para a legendagem automática de imagens no contexto de formaturas. O modelo One For All (OFA), baseado em transformers, destaca-se como uma escolha promissora. O OFA é pré-treinado em uma ampla variedade de dados, e foi especializado para a tarefa específica de legendagem de imagens de formatura. Além disso, o trabalho investiga a utilização do conhecimento implícito nos modelos de legendagem automática para identificar o sujeito principal em uma imagem. Isso é essencial para a organização eficaz de álbuns de formatura, onde é crucial destacar os principais protagonistas. O modelo OFA foi especializado para gerar caixas delimitadoras para esta tarefa, o que resultou em melhorias notáveis, com medidas de Intersection over Union médias de 0,47, em comparação com 0,17 sem especialização. Também exploramos a utilização das legendas geradas pelo modelo para a geração de uma nuvem de palavras, a qual pode ser útil para a filtragem das fotografias. As contribuições deste trabalho são diretamente relevantes para a organização de álbuns de formatura, incluindo a geração de legendas e caixas delimitadoras para o sujeito principal em fotografias, bem como a criação de nuvens de palavras para a organização eficiente dos álbuns. Em síntese, este estudo destaca a eficácia das redes neurais pré-treinadas na legendagem automática de imagens e na identificação do sujeito principal, proporcionando benefícios significativos na automatização da separação de álbuns de formatura, uma tarefa valiosa para as empresas e formandos.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherCuritiba-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherPrograma de Pós-Graduação em Computação Aplicada-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsopenAccess-
Direitos: dc.rightshttp://creativecommons.org/licenses/by/4.0/-
Palavras-chave: dc.subjectImagens fotográficas - Análise-
Palavras-chave: dc.subjectAprendizado profundo (Aprendizado do computador)-
Palavras-chave: dc.subjectProcessamento de linguagem natural (Computação)-
Palavras-chave: dc.subjectVisão por computador-
Palavras-chave: dc.subjectProcessamento de imagens-
Palavras-chave: dc.subjectSistemas de reconhecimento de padrões-
Palavras-chave: dc.subjectLegendas (filmes, televisão, etc.)-
Palavras-chave: dc.subjectImages, Photografic - Analysis-
Palavras-chave: dc.subjectDeep learning (Machine learning)-
Palavras-chave: dc.subjectNatural language processing (Computer science)-
Palavras-chave: dc.subjectComputer vision-
Palavras-chave: dc.subjectImage processing-
Palavras-chave: dc.subjectPattern recognition systems-
Palavras-chave: dc.subjectSubtitles (Motion pictures, television, etc.)-
Palavras-chave: dc.subjectCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO-
Palavras-chave: dc.subjectCiência da Computação-
Título: dc.titleExplorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas-
Título: dc.titleExploring automatic image captioning approaches for main subject identification in graduation event photos-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.