Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorSpinosa, Eduardo Jaques-
Autor(es): dc.contributorUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática-
Autor(es): dc.creatorSchmitt, Murilo Falleiros Lemos-
Data de aceite: dc.date.accessioned2019-08-21T22:56:27Z-
Data de disponibilização: dc.date.available2019-08-21T22:56:27Z-
Data de envio: dc.date.issued2019-02-08-
Data de envio: dc.date.issued2019-02-08-
Data de envio: dc.date.issued2018-
Fonte completa do material: dc.identifierhttps://hdl.handle.net/1884/58196-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/1884/58196-
Descrição: dc.descriptionOrientador: Eduardo Jaques Spinosa-
Descrição: dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 22/08/2018-
Descrição: dc.descriptionInclui referências: p.59-62-
Descrição: dc.descriptionÁrea de concentração: Ciência da Computação-
Descrição: dc.descriptionResumo: Análise de sentimento é uma tarefa importante na área de Processamento de Linguagem Natural que consiste em automaticamente atribuir documentos de texto a classes previamente definidas que representam sentimentos ou opiniões positivas/negativas em relação a um determinado assunto. Para resolução dessa tarefa, podem ser utilizadas técnicas de aprendizado de máquina. No entanto, para que possam atingir uma boa capacidade de generalização, essas técnicas dependem de um pré-processamento cuidadoso e de uma representação adequada dos dados. Este trabalho propõe tratar essas questões fundamentais por meio de redes neurais convolucionais e algoritmos de agrupamento baseados em densidade. As representações de palavras utilizadas neste trabalho foram obtidas de vetores previamente treinados de maneira não-supervisionada, denominados word embeddings. Essas representações são capazes de capturar informações sintáticas e semânticas das palavras, o que leva palavras similares a serem projetadas próximas no espaço semântico. Neste cenário, o modelo proposto utiliza um algoritmo de agrupamento no espaço semântico para extrair informações adicionais das representações vetoriais das palavras com o objetivo de melhorar o desempenho da rede neural convolucional. Utilizou-se um algoritmo de agrupamento baseado em densidade para detecção e remoção de outliers dos documentos a serem classificados, antes desses documentos serem treinados e classificados pela rede neural convolucional. Para análise do modelo proposto, foram conduzidos experimentos com dois algoritmos de obtenção de word embeddings sobre cinco bases de dados, estudando-se o impacto da remoção de outliers em diferentes graus de intensidade. Os resultados demonstram que os outliers têm pouco impacto na taxa de acerto do classificador, podendo aumentar ligeiramente, mas sua remoção pode impactar positivamente no desempenho em termos de tempo de execução da rede. Palavras-chave: Deep Learning. Detecção de Outliers. Redes Neurais Convolucionais. Análise de Sentimento.-
Descrição: dc.descriptionAbstract: Sentiment analysis is an important task in Natural Language Processing that consists in automatically assigning text documents to predefined classes that represent sentiments or a positive/negative opinion about a subject. To solve this task, machine learning techniques can be used. However, in order to achieve good generalization, these techniques require a thorough preprocessing and an appropriate data representation. To deal with these fundamental issues, this work proposes the use of convolutional neural networks and density-based clustering algorithms. The word representations used in this work were obtained from vectors previously trained in an unsupervised way, denominated word embeddings. These representations are able to capture syntactic and semantic information of words, which leads to similar words being projected closer together in the semantic space. In this scenario, in order to improve the performance of the convolutional neural network, the use of a clustering algorithm in the semantic space to extract additional information from the data is proposed. A density-based clustering algorithm was used to detect and remove outliers from the documents to be classified before these documents were used to train the convolutional neural network. To evaluate the proposed method, experiments were conducted with two different embeddings across five datasets, by studying the impact of the removal of outliers in different degrees of intensity. Results show that the outliers have little impact on the classifier's accuracy, being able to improve it slightly, but their removal can have positive impact on performance in terms of network runtime. Keywords: Deep Learning. Outlier Detection. Convolutional Neural Networks. Sentiment Analysis.-
Formato: dc.format62 p. : il. (algumas color.).-
Formato: dc.formatapplication/pdf-
Formato: dc.formatapplication/pdf-
Palavras-chave: dc.subjectRedes neurais (Computação)-
Palavras-chave: dc.subjectCiência da Computação-
Palavras-chave: dc.subjectAlgoritmos de computador-
Palavras-chave: dc.subjectInteligência artificial-
Palavras-chave: dc.subjectTeses-
Título: dc.titleDetecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais-
Aparece nas coleções:Repositório Institucional - Rede Paraná Acervo

Não existem arquivos associados a este item.