Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorPedrosa, Glauco Vitor-
Autor(es): dc.creatorCosta, Wagner Miranda-
Data de aceite: dc.date.accessioned2024-10-23T15:43:04Z-
Data de disponibilização: dc.date.available2024-10-23T15:43:04Z-
Data de envio: dc.date.issued2024-02-21-
Data de envio: dc.date.issued2024-02-21-
Data de envio: dc.date.issued2024-02-21-
Data de envio: dc.date.issued2023-12-20-
Fonte completa do material: dc.identifierhttp://repositorio2.unb.br/jspui/handle/10482/47825-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/890121-
Descrição: dc.descriptionDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.-
Descrição: dc.descriptionJurisprudência se refere ao conjunto de decisões reiteradas sobre determinado assunto, constituindo uma espécie de precedente judicial. No âmbito do Tribunal de Contas da União (TCU), órgão responsável por exercer o controle externo da Administração Pública Federal, a jurisprudência representa as interpretações consolidadas das normas aplicáveis à fiscalização financeira e operacional das contas públicas dos órgãos e entidades da União. Uma vez que a elaboração da jurisprudência é definida a partir de um agrupamento de acórdãos similares, é relevante desenvolver ferramentas automatizadas que auxiliem os especialistas responsáveis por esta atividade. Porém, essa é uma tarefa desafiadora para a área da computação, devido às especificidades do vocabulário presente nos textos dos acórdãos e ao volume massivo de dados a serem processados. Sendo assim, é necessário desenvolver abordagens escaláveis, eficazes e eficientes, e que possuam baixo custo computacional. Este trabalho apresenta o estudo e implementação de algumas abordagens para a representação desses documentos textuais, tanto em nível de palavra quanto em nível de conceito. Como contribuição, foi proposta uma nova abordagem denominada BoC-Th (Bag of Concepts with Thesaurus), que gera histogramas ponderados de conceitos definidos a partir da distância das palavras do documento ao seu respectivo termo similar dentro de um tesauro. Esta abordagem permite enfatizar palavras com maior significado no contexto, gerando, assim, vetores mais discriminativos. Realizaram-se avaliações experimentais comparando a abordagem proposta com as abordagens tradicionais para representação de documentos. O método proposto obteve resultados superiores entre as técnicas avaliadas para recuperação de documentos jurisprudenciais. O BoC-Th aumentou a precisão média em comparação às abordagens tradicionais, incluindo a versão original BoC (Bag of Concepts), ao mesmo tempo que foi mais rápido que as representações tradicionais BoW, BM25 e TF-IDF. A abordagem proposta contribuiu para enriquecer uma área com características peculiares, fornecendo um recurso para recuperação de informações textuais de forma mais precisa e rápida do que outras técnicas baseadas em processamento de linguagem natural.-
Descrição: dc.descriptionCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).-
Descrição: dc.descriptionJurisprudence refers to the set of repeated decisions on a given subject, constituting a type of judicial precedent. Within the scope of the Federal Audit Court (TCU), the body responsible for exercising external control of the Federal Public Administration, jurisprudence represents the consolidated interpretations of the rules applicable to the financial and operational supervision of the public accounts of the Union’s bodies and entities. Since the elaboration of jurisprudence is defined based on a grouping of similar rulings, it is important to develop automated tools that assist the specialists responsible for this activity. However, this is a challenging task for the area of computing, due to the specificities of the vocabulary present in the texts of the rulings and the massive volume of data to be processed. Therefore, it is necessary to develop scalable, effective and efficient approaches that have low computational cost. This work presents the study and implementation of some approaches for representing these textual documents, both at the word level and at the concept level. As a contribution, a new approach called BoC-Th (Bag of Concepts with Thesaurus) was proposed, which generates weighted histograms of concepts defined based on the distance of the words in the document to their respective similar term within a thesaurus. This approach allows us to emphasize words with greater meaning in the context, thus generating more discriminative vectors. Experimental evaluations were carried out comparing the proposed approach with traditional approaches for document representation. The proposed method obtained superior results among the techniques evaluated for recovering jurisprudential documents. BoC-Th increased average accuracy compared to traditional approaches, including the original BoC (Bag of Concepts), while also being faster than traditional BoW, BM25, and TF-IDF representations. The proposed approach contributed to enriching an area with peculiar characteristics, providing a resource for retrieving textual information more accurately and quickly than other techniques based on natural language processing.-
Descrição: dc.descriptionInstituto de Ciências Exatas (IE)-
Descrição: dc.descriptionDepartamento de Ciência da Computação (IE CIC)-
Descrição: dc.descriptionPrograma de Pós-Graduação em Computação Aplicada, Mestrado Profissional-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsAcesso Aberto-
Direitos: dc.rightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.-
Palavras-chave: dc.subjectProcessamento de linguagem natural (Computação)-
Palavras-chave: dc.subjectRecuperação da informação-
Palavras-chave: dc.subjectRepresentação vetorial de documentos-
Palavras-chave: dc.subjectJurisprudência-
Palavras-chave: dc.subjectWord EmbeddingsTribunal de Contas da União (TCU)-
Título: dc.titleSimilaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU-
Tipo de arquivo: dc.typelivro digital-
Aparece nas coleções:Repositório Institucional – UNB

Não existem arquivos associados a este item.