Combinação de áudio e sequência de imagens para recuperação de momento de vídeo por linguagem natural

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorSaito, Priscila Tiemi Maeda-
Autor(es): dc.contributorSaito, Priscila Tiemi Maeda-
Autor(es): dc.contributorSanches, Silvio Ricardo Rodrigues-
Autor(es): dc.contributorBugatti, Pedro Henrique-
Autor(es): dc.creatorSouza, Luis Gustavo de-
Data de aceite: dc.date.accessioned2025-08-29T12:33:12Z-
Data de disponibilização: dc.date.available2025-08-29T12:33:12Z-
Data de envio: dc.date.issued2025-04-16-
Data de envio: dc.date.issued2025-04-16-
Data de envio: dc.date.issued2021-05-19-
Fonte completa do material: dc.identifierhttp://repositorio.utfpr.edu.br/jspui/handle/1/36575-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1097532-
Descrição: dc.descriptionThe video moment retrieval with natural language area aims to locate the segment (moment) of the video most relevant to a textual description (natural language). However, existing methods are based only on the analysis of the image sequence and neglect the information derived from the audio. Thus, the main objective of this study is to combine both features to make the recovery more comprehensive and robust. For this, a model is built on audio and image sequence extractors aligned that relate to the textual description to recover the desired moment of the video. Results demonstrate that the proposed model outperforms the current state-of-the-art in the metric mloU by more than 27%, in addition to decreasing the response time of the video moment retrieval (reducing the computational complexity from polynomial to linear).-
Descrição: dc.descriptionA área de recuperação de momento de vídeo por linguagem natural tem o propósito de localizar o segmento (momento) do vídeo mais relevante à uma descrição textual (linguagem natural). Entretanto, os métodos existentes baseiam-se apenas na análise da sequência de imagens e negligenciam a informação derivada do áudio. Deste modo, o principal objetivo deste estudo é combinar ambas características de forma a tornar a recuperação mais abrangente e robusta. Para isso, um modelo é construído sobre extratores de áudio e de sequência de imagens alinhados que relacionam-se com a descrição textual para resgatar o momento desejado do vídeo. Resultados demonstram que o modelo proposto supera o atual estado-da-arte na métrica mIoU em mais de 27%, além de diminuir o tempo de resposta da recuperação de momentos de vídeo (diminuição da complexidade computacional de polinomial para linear).-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherUniversidade Tecnológica Federal do Paraná-
Publicador: dc.publisherCornelio Procopio-
Publicador: dc.publisherBrasil-
Publicador: dc.publisherEngenharia da Computação-
Publicador: dc.publisherUTFPR-
Direitos: dc.rightsopenAccess-
Direitos: dc.rightsAttribution-NonCommercial 4.0 International-
Direitos: dc.rightshttp://creativecommons.org/licenses/by-nc/4.0/-
Palavras-chave: dc.subjectVídeo digital-
Palavras-chave: dc.subjectRecuperação de dados (Computação)-
Palavras-chave: dc.subjectProcessamento de linguagem natural (Computação)-
Palavras-chave: dc.subjectDigital video-
Palavras-chave: dc.subjectData recovery (Computer science)-
Palavras-chave: dc.subjectNatural language processing (Computer science)-
Palavras-chave: dc.subjectCNPQ::ENGENHARIAS-
Título: dc.titleCombinação de áudio e sequência de imagens para recuperação de momento de vídeo por linguagem natural-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositorio Institucional da UTFPR - RIUT

Não existem arquivos associados a este item.