Contributions to the video captioning in an open-world scenario using deep learning techniques

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorLopes, Heitor Silvério-
Autor(es): dc.contributorhttps://orcid.org/0000-0003-3984-1432-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4045818083957064-
Autor(es): dc.contributorLazzaretti, André Eugênio-
Autor(es): dc.contributorhttps://orcid.org/0000-0003-1861-3369-
Autor(es): dc.contributorhttp://lattes.cnpq.br/7649611874688878-
Autor(es): dc.contributorLopes, Heitor Silvério-
Autor(es): dc.contributorhttps://orcid.org/0000-0003-3984-1432-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4045818083957064-
Autor(es): dc.contributorPedrini, Hélio-
Autor(es): dc.contributorhttps://orcid.org/0000-0003-0125-630X-
Autor(es): dc.contributorhttp://lattes.cnpq.br/9600140904712115-
Autor(es): dc.contributorRibeiro, Manassés-
Autor(es): dc.contributorhttps://orcid.org/0000-0002-7526-5092-
Autor(es): dc.contributorhttp://lattes.cnpq.br/6475893755893056-
Autor(es): dc.contributorBugatti, Pedro Henrique-
Autor(es): dc.contributorhttps://orcid.org/0000-0001-9421-9254-
Autor(es): dc.contributorhttp://lattes.cnpq.br/2177467029991118-
Autor(es): dc.creatorInácio, Andrei de Souza-
Data de aceite: dc.date.accessioned2025-08-29T11:48:02Z-
Data de disponibilização: dc.date.available2025-08-29T11:48:02Z-
Data de envio: dc.date.issued2023-10-06-
Data de envio: dc.date.issued2023-10-06-
Data de envio: dc.date.issued2023-08-28-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/32638-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1083464-
Descrição: dc.descriptionVideo captioning poses a significant challenge within the Computer Vision and Artificial Intelligence domains. It involves the challenging task of translating the visual content of videos into natural language descriptions. Despite significant advancements achieved through deep learning techniques, existing approaches usually perform such a task in a closed-world scenario, assuming all actions, concepts presented in a scene, and vocabulary are known in advance. However, new actions and objects may emerge unexpectedly in real-world applications, and new vocabulary may be necessary to describe those concepts. Therefore, an ideal video captioning approach for an open-world environment should be able to describe known events, detect unknown ones, and adapt incrementally to learn how to describe new events without forgetting what it has already learned. This thesis presents contributions to the video captioning problem in an open-world scenario. The first method, called OSVidCap, was proposed to describe concurrent known events performed by humans in videos and can deal with unknown ones. The second proposed method is an incremental learning approach for video captioning, designed to adapt an existing model to learn new events incrementally. Two novel datasets and a protocol for evaluating video captioning approaches in an open-world scenario are presented. Experimental results conducted on these datasets demonstrate the effectiveness of the proposed methods.-
Descrição: dc.descriptionA tarefa de descrição de vídeos representa um desafio significativo para as áreas de Visão Computacional e Inteligência Artificial, pois envolve a tradução do conteúdo visual de vídeos em linguagem natural. Apesar dos avanços significativos alcançados por meio de técnicas de aprendizado profundo, as abordagens existentes geralmente executam essa tarefa em um contexto de mundo fechado, presumindo que todas as ações e conceitos possíveis em uma cena, bem como o vocabulário, sejam conhecidos antecipadamente. No entanto, em aplicações do mundo real, novas ações e objetos podem surgir inesperadamente, exigindo novos vocabulários para descrever esses conceitos. Portanto, uma abordagem desejável para a descrição de vídeos em um ambiente de mundo aberto é aquela que pode descrever eventos conhecidos, detectar eventos desconhecidos e se adaptar incrementalmente para aprender a descrever esse conjunto de eventos desconhecidos, sem esquecer os eventos já aprendidos. Esta tese apresenta contribuições para o problema da descrição de vídeos em um cenário de mundo aberto. O primeiro método proposto é um sistema denominado OSVidCap, que visa descrever eventos conhecidos realizados por humanos em vídeos. O segundo método é uma abordagem de aprendizado incremental para a descrição de vídeos, permitindo a adaptação do modelo existente para aprender novas classes incrementalmente. Dois novos conjuntos de dados e um protocolo de avaliação foram criados para avaliar as abordagens de descrição de vídeo em um contexto de mundo aberto. Os resultados experimentais obtidos com estes conjuntos de dados demonstraram a eficácia dos métodos propostos.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherCuritiba-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrial-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsopenAccess-
Direitos: dc.rightshttp://creativecommons.org/licenses/by/4.0/-
Palavras-chave: dc.subjectDescrição de Vídeos-
Palavras-chave: dc.subjectAprendizado profundo (aprendizado do computador)-
Palavras-chave: dc.subjectVisão por computador-
Palavras-chave: dc.subjectProcessamento de linguagem natural (Computação)-
Palavras-chave: dc.subjectRedes neurais (Computação)-
Palavras-chave: dc.subjectPercepção de padrões-
Palavras-chave: dc.subjectSistemas de reconhecimento de padrões-
Palavras-chave: dc.subjectBig data-
Palavras-chave: dc.subjectVideo description-
Palavras-chave: dc.subjectDeep learning (Machine learning)-
Palavras-chave: dc.subjectComputer vision-
Palavras-chave: dc.subjectNatural language processing (Computer science)-
Palavras-chave: dc.subjectNeural networks (Computer science)-
Palavras-chave: dc.subjectPattern perception-
Palavras-chave: dc.subjectPattern recognition systems-
Palavras-chave: dc.subjectCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO-
Palavras-chave: dc.subjectEngenharia Elétrica-
Título: dc.titleContributions to the video captioning in an open-world scenario using deep learning techniques-
Título: dc.titleContribuições para a descrição de vídeos em um cenário de mundo aberto utilizando técnicas de aprendizado profundo-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.