Atenção:
O eduCAPES é um repositório de objetos educacionais, não sendo responsável por materiais de terceiros submetidos na plataforma. O usuário assume ampla e total responsabilidade quanto à originalidade, à titularidade e ao conteúdo, citações de obras consultadas, referências e outros elementos que fazem parte do material que deseja submeter. Recomendamos que se reporte diretamente ao(s) autor(es), indicando qual parte do material foi considerada imprópria (cite página e parágrafo) e justificando sua denúncia.
Caso seja o autor original de algum material publicado indevidamente ou sem autorização, será necessário que se identifique informando nome completo, CPF e data de nascimento. Caso possua uma decisão judicial para retirada do material, solicitamos que informe o link de acesso ao documento, bem como quaisquer dados necessários ao acesso, no campo abaixo.
Todas as denúncias são sigilosas e sua identidade será preservada. Os campos nome e e-mail são de preenchimento opcional. Porém, ao deixar de informar seu e-mail, um possível retorno será inviabilizado e/ou sua denúncia poderá ser desconsiderada no caso de necessitar de informações complementares.
Metadados | Descrição | Idioma |
---|---|---|
Autor(es): dc.contributor | Clua, Esteban Walter Gonzalez | - |
Autor(es): dc.contributor | Bernardini, Flavia Cristina | - |
Autor(es): dc.contributor | Viterbo Filho, José | - |
Autor(es): dc.contributor | Orosa, Luis Martí | - |
Autor(es): dc.contributor | Sanchez-Pi, Nayat | - |
Autor(es): dc.creator | Marinho, Wemerson Pastor de Oliveira | - |
Data de aceite: dc.date.accessioned | 2025-08-21T20:16:10Z | - |
Data de disponibilização: dc.date.available | 2025-08-21T20:16:10Z | - |
Data de envio: dc.date.issued | 2025-08-12 | - |
Data de envio: dc.date.issued | 2025-08-12 | - |
Fonte completa do material: dc.identifier | https://app.uff.br/riuff/handle/1/39803 | - |
Fonte: dc.identifier.uri | http://educapes.capes.gov.br/handle/capes/1057901 | - |
Descrição: dc.description | Nos últimos anos, avanços em Modelos Neurais de Linguagem pré-treinados em grandes corpora de textos têm possibilitado a extração de representações linguísticas ricas, permitindo o treinamento eficiente de redes neurais para aplicações específicas, mesmo com conjuntos de dados reduzidos. Neste contexto, esta tese investiga o uso dessas representações para a predição de parâmetros da Teoria da Resposta ao Item (TRI), utilizando exclusivamente os enunciados das questões. A pesquisa inova ao demonstrar a viabilidade da obtenção dos parâmetros de dificuldade dos itens a partir da Curva Característica do Item, em vez da abordagem convencional de regressão direta sobre os parâmetros, predominante na literatura. Para avaliar essa proposta, foram testados diversos tipos de encoders, baseados em arquiteturas Transformer, comparando modelos treinados em Português e Multilinguais. A arquitetura piramidal desenvolvida foi capaz de predizer o parâmetro de dificuldade das questões do ENEM 2020 e 2021 com um erro médio de 70 pontos e uma mediana de 58 pontos. Ao calcular a nota TRI para uma amostra de 100.000 estudantes, o erro absoluto médio permaneceu abaixo de 40 pontos em todas as áreas do exame. Para o quartil superior dos candidatos, os candidatos mais competitivos do SISU, o erro médio absoluto foi inferior a 30 pontos em todas as áreas, chegando a menos de 15 pontos em algumas delas. Além disso, foi desenvolvida uma nova abordagem para a obtenção de embeddings baseada em Representações Relativas, que explora a similaridade entre os tokens de uma questão e um conjunto de âncoras selecionadas, reduzindo a complexidade computacional do processo. Os experimentos demonstraram que essa estratégia apresenta desempenho similar ou superior à abordagem piramidal, que utiliza a matriz completa de tokens, além de tornar o processo mais eficiente. Os experimentos foram conduzidos em uma base de dados real e de alta relevância nacional, composta por 2.578 enunciados de questões extraídos de 14 anos de exames do ENEM, principal porta de entrada para o ensino superior no Brasil, impactando milhões de estudantes anualmente. Os resultados desta pesquisa indicam que a tecnologia desenvolvida pode ser utilizada para prever parâmetros de novas questões, compor exames simulados e avaliar o desempenho dos candidatos neste exame com precisão. Além disso, a abordagem reduz a dependência de custosos processos de pré-calibração em avaliações educacionais. | - |
Descrição: dc.description | In recent years, advances in pre-trained Neural Language Models on large text corpora have enabled the extraction of rich linguistic representations, allowing for the eficient training of neural networks for specific applications, even with limited datasets. In this context, this thesis investigates the use of these representations for predicting parameters of Item Response Theory (IRT), relying exclusively on the textual content of exam questions. This research introduces an innovative approach by demonstrating the feasibility of obtaining item dificulty parameters from the Item Characteristic Curve, rather than the conventional regression-based approach widely used in the literature. To evaluate this proposal, various Transformer-based encoders were tested, comparing models trained in Portuguese and Multilingual settings. The pyramidal neural architecture developed was able to predict the dificulty parameter of ENEM 2020 and 2021 questions with an average error of 70 points and a median of 58 points. When calculating the IRT scores for a sample of 100,000 students, the mean absolute error remained below 40 points across all exam areas, and below 30 points for the top quartile of candidates, reaching less than 15 points in some cases. Additionally, a novel approach for generating embeddings based on Relative Representations was developed. This method leverages the similarity between question tokens and a selected set of anchor words, reducing computational complexity while maintaining or even improving performance compared to the pyramidal approach, which relies on the full token matrix. The experiments were conducted on a real and nationally relevant dataset, consisting of 2,578 question texts collected from 14 years of ENEM exams. As Brazil's primary university entrance exam, ENEM impacts millions of students annually. The findings of this research suggest that the proposed technology can be used to predict parameters for new exam questions, design simulated tests, and assess candidate performance with high accuracy. Furthermore, this approach reduces reliance on costly pre-calibration processes in educational assessments, optimizing evaluation methodologies. | - |
Descrição: dc.description | 133 f. | - |
Formato: dc.format | application/pdf | - |
Idioma: dc.language | en | - |
Direitos: dc.rights | Open Access | - |
Direitos: dc.rights | CC-BY-SA | - |
Palavras-chave: dc.subject | ENEM | - |
Palavras-chave: dc.subject | Teoria de resposta ao item | - |
Palavras-chave: dc.subject | Modelos neurais de linguagem | - |
Palavras-chave: dc.subject | Representações relativas | - |
Palavras-chave: dc.subject | Exame Nacional do Ensino Médio (Brasil) | - |
Palavras-chave: dc.subject | Rede neural | - |
Palavras-chave: dc.subject | Linguagem (Computação) | - |
Palavras-chave: dc.subject | Item response theory | - |
Palavras-chave: dc.subject | Neural language models | - |
Palavras-chave: dc.subject | Relative representations | - |
Título: dc.title | Predicting item response theory parameters using question statements texts | - |
Tipo de arquivo: dc.type | Tese | - |
Aparece nas coleções: | Repositório Institucional da Universidade Federal Fluminense - RiUFF |
O Portal eduCAPES é oferecido ao usuário, condicionado à aceitação dos termos, condições e avisos contidos aqui e sem modificações. A CAPES poderá modificar o conteúdo ou formato deste site ou acabar com a sua operação ou suas ferramentas a seu critério único e sem aviso prévio. Ao acessar este portal, você, usuário pessoa física ou jurídica, se declara compreender e aceitar as condições aqui estabelecidas, da seguinte forma: