Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Ara, Anderson Luiz | - |
Autor(es): dc.contributor | Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Métodos Numéricos em Engenharia | - |
Autor(es): dc.creator | Brasil, Vinícyus Araújo | - |
Data de aceite: dc.date.accessioned | 2025-09-01T12:20:18Z | - |
Data de disponibilização: dc.date.available | 2025-09-01T12:20:18Z | - |
Data de envio: dc.date.issued | 2025-02-05 | - |
Data de envio: dc.date.issued | 2025-02-05 | - |
Data de envio: dc.date.issued | 2023 | - |
Fonte completa do material: dc.identifier | https://hdl.handle.net/1884/94678 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/1884/94678 | - |
Descrição: dc.description | Orientador: Profº Drº Anderson Luiz Ara Souza | - |
Descrição: dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Métodos Numéricos em Engenharia. Defesa : Curitiba, 26/09/2024 | - |
Descrição: dc.description | Inclui referências | - |
Descrição: dc.description | Resumo: A busca por novos algoritmos que consigam resolver o problema do aprendizado por reforço, no qual um agente explora um ambiente com estados buscando tomar ações que maximizem sua recompensa, tem crescido nos últimos tempos, principalmente ao combinar com outras técnicas de aproximação de funções já estabelecidas em outras áreas do aprendizado de máquina. Apesar de alguns algoritmos já terem se consolidado da literatura, ainda existem problemas notáveis para explorar, como a dificuldade em lidar com ambientes com um alto número de ações e estados do Q-Learning e o problema da não-convexidade do algoritmo Deep Q-Network. Uma técnica pouco explorada para o problema do aprendizado por reforço é a Máquina de Vetores Suporte, técnica utilizada tanto para classificação e regressão que tem uma grande capacidade de generalização. Essa tem a característica desejável em algoritmos de otimização que é a convexidade no seu problema de otimização. O objetivo deste trabalho é propor um algoritmo de aprendizado por reforço utilizando Máquina de Vetores Suporte, o qual é chamado de Q-SVR. O estudo se limitou à ambientes de problemas de aprendizado por reforço que têm um número discreto e pequeno de estados. Testes foram realizados e mostraram a viabilidade do algoritmo proposto, assim como sua superioridade em relação aos algoritmos Q-Learning e Deep Q-Network em algumas métricas específicas. Uma aplicação no jogo de cartas Blackjack também foi apresentada. Os testes também apontaram possibilidades de melhorias do algoritmo proposto, como o alto tempo computacional e a dificuldade de lidar com problemas com muitos estados | - |
Descrição: dc.description | Abstract: The search for new algorithms that can solve the reinforcement learning problem, in which an agent explores an environment with states seeking to take actions that maximize its reward, has grown in recent times, especially when combined with other function approximation techniques already established in other areas of machine learning. Although algorithms have already been consolidated in the literature, there are still notable problems to explore, such as the difficulty in dealing with environments with a high number of actions and states of Q-Learning and the problem of non-convexity of the Deep Q-Network algorithm. A little-explored technique for the reinforcement learning problem is the Support Vector Machine, a technique used for both classification and regression that has a great generalization capacity. This has a desirable characteristic in optimization algorithms, which is convexity in its optimization problem. The objective of this work is to propose a reinforcement learning algorithm using Support Vector Machine, which is called Q-SVR. The study was limited to reinforcement learning problem environments that have a small and discrete number of states. Tests were performed and showed the viability of the proposed algorithm, as well as its superiority over the Q-Learning and Deep Q-Network algorithms in some specific metrics. An application in the card game Blackjack was also presented. The tests also pointed out possibilities for improvements in the proposed algorithm, such as the high computational time and the difficulty of dealing with problems with many states | - |
Formato: dc.format | 1 recurso online : PDF. | - |
Formato: dc.format | application/pdf | - |
Formato: dc.format | application/pdf | - |
Palavras-chave: dc.subject | Algorítmos computacionais | - |
Palavras-chave: dc.subject | Aprendizado do computador | - |
Palavras-chave: dc.subject | Análise Numérica | - |
Título: dc.title | Q-SVR : aprendizado por reforço via aproximação da função ação-valor por máquinas de vetores suporte | - |
Aparece nas coleções: | Repositório Institucional - Rede Paraná Acervo |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: