Investigação do processo de stemming na lingua portuguesa

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorGarcia, Ana Cristina Bicharra-
Autor(es): dc.contributorCPF:31237899422-
Autor(es): dc.contributorhttp://lattes.cnpq.br/4879977915136752-
Autor(es): dc.contributorRezende, Solange Oliveira-
Autor(es): dc.contributorCPF:29523433222-
Autor(es): dc.contributorhttp://lattes.cnpq.br-
Autor(es): dc.contributorSoto, Miguel Pari-
Autor(es): dc.contributorCPF:22264323422-
Autor(es): dc.contributorhttp://lattes.cnpq.br/1534009365844020-
Autor(es): dc.creatorAlvares, Reinaldo Viana-
Data de aceite: dc.date.accessioned2024-07-11T18:46:12Z-
Data de disponibilização: dc.date.available2024-07-11T18:46:12Z-
Data de envio: dc.date.issued2021-03-10-
Data de envio: dc.date.issued2008-06-16-
Data de envio: dc.date.issued2021-03-10-
Fonte completa do material: dc.identifierhttps://app.uff.br/riuff/handle/1/17898-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/777194-
Descrição: dc.descriptionThe information retrieval process is a usual task for the human. However, having a complex automation. This happens because the quality of the results is often related with the degree of the user's satisfaction, a difficult parameter to measure. In general this quality is evaluated being taking into account a group of queries in a text collection, and their relevant answers. Commonly, two evaluation measures are used in this process: the first is the precision, wich represents the proportion of recovered relevant items from the total of recovered items; and the second is the recall, wich represents the proportion of recovered relevant items from the total of relevant items of the collection. One of the challenges is to find efficient forms to represent the documents, in order to avoid ambiguity. An alternative to solve this problem consists of obtaining a unique representation for words that appear for a same concept. This task can be defined as stemming. Many times, the stemming process is dependent to the morphologic structure of the target language. For the Portuguese language, there were found few solutions to assist the demand for these algorithms. The morphologic complexity of Portuguese language, and the few stemming solutions found for this language, were the motivation for the research shown in this work. This work presents a new model for the stemming process, that is applicable to the Portuguese language, based on a statistical study accomplished in a collection of extracted words of the Brazilian Web. With objective of evaluating the model, a stemmer is implemented and compared with a solution found in the literature, especially developed for Portuguese. The main contributions of this work are the systematical model for the stemming process, besides the stemmer conceived and implemented specially for the Portuguese language.-
Descrição: dc.descriptionO processo de busca e recuperação de informação é uma tarefa rotineira do ser humano, no entanto, de complexa automatização. Isto ocorre pois a qualidade dos resultados é muitas vezes relacionada com o grau de satisfação do usuário, um parâmetro de difícil mensuração. Em geral esta qualidade é avaliada levando-se em consideração um conjunto de consultas realizadas em uma coleção de textos, e as respostas relevantes obtidas. Comumente, duas medidas de avaliação são utilizadas neste processo: precision, que representa a proporção de itens relevantes recuperados do total de itens recuperados; e recall, que representa a proporção de itens relevantes recuperados do total de itens relevantes da coleção. Para isso, um dos desafios é encontrar formas eficientes para representar os documentos, de maneira a evitar ambigüidade. Uma alternativa para resolver este problema consiste em obter uma representação única para palavras que apontem para um mesmo conceito. Esta tarefa pode ser definida como stemming. O processo de stemming muitas vezes é atrelado à estrutura morfológica do idioma onde é utilizado. Em se tratando da língua portuguesa, foram encontradas poucas soluções para atender a demanda por esses tipos de algoritmos. A complexidade morfológica da língua portuguesa e as poucas soluções de stemming encontradas para este idioma, serviram como motivação para o desenvolvimento desta dissertação. Este trabalho apresenta um modelo para algoritmos de stemming, aplicável à língua portuguesa, baseado num estudo estatístico realizado em uma coleção de palavras extraídas da Web brasileira. Com objetivo de avaliar o modelo, um stemmer é implementado e comparado com uma solução encontrada na literatura, especialmente desenvolvida para este idioma. As principais contribuições deste trabalho são o modelo sistemático para o processo de stemming, além do stemmer concebido e implementado especialmente para a língua portuguesa.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Publicador: dc.publisherPrograma de Pós-Graduação em Computação-
Publicador: dc.publisherComputação-
Direitos: dc.rightsAcesso Aberto-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectCiência da computação-
Palavras-chave: dc.subjectAlgoritmo-
Palavras-chave: dc.subjectRecuperação da informação-
Palavras-chave: dc.subjectProcesso de mineração de dados-
Palavras-chave: dc.subjectRecuperação de dados (Computação)-
Palavras-chave: dc.subjectMineração de texto-
Palavras-chave: dc.subjectBanco de Dados-
Palavras-chave: dc.subjectKDD-
Palavras-chave: dc.subjectinteligência artificial-
Palavras-chave: dc.subjectAlgoritmos de stemming-
Palavras-chave: dc.subjectProcessamento de linguagem natural-
Palavras-chave: dc.subjectCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::COMPUTABILIDADE E MODELOS DE COMPUTACAO-
Título: dc.titleInvestigação do processo de stemming na lingua portuguesa-
Título: dc.titleStemming process investigation for the portuguese language-
Tipo de arquivo: dc.typeDissertação-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.