Um estudo sobre a detecção de fechamento espúrio de válvulas de segurança em poços de petróleo por meio de aprendizado de máquina

Registro completo de metadados
MetadadosDescriçãoIdioma
Autor(es): dc.contributorAraujo, João Felipe Mitre de-
Autor(es): dc.contributorFerreira, Geraldo de Souza-
Autor(es): dc.contributorSantos, Lizandro de Sousa-
Autor(es): dc.contributorPereira, Valdecy-
Autor(es): dc.creatorMadero, Pedro Ivo Spena de Souza-
Data de aceite: dc.date.accessioned2025-08-21T20:13:41Z-
Data de disponibilização: dc.date.available2025-08-21T20:13:41Z-
Data de envio: dc.date.issued2025-02-11-
Data de envio: dc.date.issued2025-02-11-
Fonte completa do material: dc.identifierhttps://app.uff.br/riuff/handle/1/36479-
Fonte: dc.identifier.urihttp://educapes.capes.gov.br/handle/capes/1057111-
Descrição: dc.descriptionO estudo propõe uma ferramenta de gestão de sensores e alarmes em plataformas de E&P baseada em aprendizado de máquina, utilizando algoritmos de classificação para identificação de fechamento espúrio da válvula DHSV, um acidente que prejudica a operabilidade da produção. Os dados utilizados são séries temporais simuladas em diversas condições de escoamento e níveis de fechamento da válvula, já que o comprometimento estrutural desta se dá em vários níveis de restrição de escoamento. Neste caso, as séries temporais foram tratadas de forma que cada instante correspondesse a um estado, sendo “0” para normalidade e “1” para normalidade, constituindo um problema de classificação binária. O tratamento inicial consistiu na organização dos dados brutos em uma planilha de Excel utilizando VBA para que esta fosse tratada, já em Python, em relação à valores e instâncias faltantes, bem como a variáveis irrelevantes. Posteriormente, optou-se por empilhar os dados de acordo com o ponto de medição e variável de processo, de forma que os dados possuíssem informação tanto das condições iniciais de escoamento quanto dos níveis de restrição da válvula. A binarização da variável-alvo foi feita e se observou uma necessidade de balanceamento de classes; isto feito, escolheu-se três tipos de utilização dos dados: a original; a que subtrai de cada variável os valores das condições iniciais, diferentes para cada caso; e a que subtrai de cada variável a média móvel da primeira terça parte dos valores. Os dados já tratados foram divididos em conjuntos de treino, validação e testes, sendo os conjuntos de treino e validação utilizados para treinamento de sete algoritmos de classificação: Decision Trees, Random Forest, XGBoost, Support Vector Machine, Regressão Logística, Gaussian Naive-Bayes e K-Nearest Neighbours. Na avaliação do melhor modelo, escolheu-se o recall como principal métrica de avaliação para que se evitasse ao máximo a presença de falsos negativos, os resultados mais indesejados na identificação de um eventual acidente. Foi feita uma validação cruzada nos algoritmos e o recall médio destes foi comparado ao desempenho de um preditor aleatório utilizado como linha de base; o que obteve a melhor performance foi o modelo Random Forest no tratamento de subtração da média móvel, com um recall médio de 96,01%. Os hiperparâmetros desse modelo, sob esse tratamento, foram otimizados, sendo o modelo então validado com o conjunto de testes nas principais métricas escolhidas: acurácia, precisão, recall e AUC-ROC, obtendo recall de 96,62% e um AUC-ROC de 0,9965, se mostrando um bom algoritmo para evitar falsos positivos no acidente em questão e um excelente classificador. Ademais, o estudo atestou que o banco de dados produzido por Brito (2023) tem a robustez necessária para ser utilizado em aprendizagem supervisionada, sendo o marco inicial para esse tipo de abordagem. Futuramente, além da possibilidade de se trabalhar com os outros acidentes simulados, é possível explorar abordagens de aprendizagem semi-supervisionada em caso de não-rotulagem dos dados e até de modelagem e predição de séries temporais, com tratamentos diferentes dos realizados-
Descrição: dc.descriptionThe study proposes a tool for managing sensors and alarms in E&P platforms based on machine learning, using classification algorithms to identify spurious closure of the DHSV valve, an accident that impairs production operability. The used data are a simulated time series under different flow conditions and levels of valve closure, as the structural impairment of the valve occurs at various levels of flow restriction. In this case, the time series were treated in such a way that each instant corresponded to a state, with "0" for normality and "1" for abnormality, constituting a binary classification problem. The initial treatment consisted of organizing the raw data into an Excel spreadsheet using VBA so it could later be processed, in Python, to address missing values and instances, as well as irrelevant variables. Subsequently, the data was stacked according to the system’s measurement points and process variables, ensuring it contained information on both the initial flow conditions and the valve restriction levels. The binarization of the target variable was made and a need for class balancing was observed; once this was done, three types of data processing were chosen: the original; the one that subtracts from each variable the values of the initial conditions, different for each case; and the one that subtracts from each variable the moving average of the first third of the values. The treated data were divided into training, validation and test sets, with the training and validation sets used in the training of seven classification algorithms: Decision Trees, Random Forest, XGBoost, Support Vector Machine, Logistic Regression, Gaussian Naive-Bayes and K-Nearest Neighbors. In the evaluation of the best model, recall was chosen as the main evaluation metric to avoid the presence of false negatives, the most undesirable results in the identification of a possible accident. A cross-validation was performed on the algorithms and their average recall was compared to the performance of a random predictor used as a baseline; the best performance was achieved by the Random Forest model in the moving average subtraction treatment, which yielded an average recall of 96.01%. The hyperparameters of this model, under this treatment, were optimized and the model was then validated with the test set using accuracy, precision, recall and AUC-ROC as evaluation metrics. It achieved a recall of 96.62% and an AUC-ROC of 0.9965, proving to be a good algorithm for avoiding false positives in the incident at hand and an excellent classifier. Furthermore, the study attested that the database produced by Brito (2023) has the necessary robustness to be used in supervised learning, being the starting point for this type of approach. In the future, in addition to the possibility of working with the other simulated accidents, it is possible to explore semi-supervised learning approaches in case of unlabeled data, and even time series modeling and prediction, with different treatments than those performed-
Descrição: dc.description99 f.-
Formato: dc.formatapplication/pdf-
Idioma: dc.languagept_BR-
Direitos: dc.rightsOpen Access-
Direitos: dc.rightsCC-BY-SA-
Palavras-chave: dc.subjectAprendizado supervisionado-
Palavras-chave: dc.subjectFechamento espúrio de válvulas-
Palavras-chave: dc.subjectPlataforma petrolífera-
Palavras-chave: dc.subjectVálvula de regulação-
Palavras-chave: dc.subjectAprendizado de máquina-
Palavras-chave: dc.subjectSupervised learning-
Palavras-chave: dc.subjectSpurious valve closure-
Título: dc.titleUm estudo sobre a detecção de fechamento espúrio de válvulas de segurança em poços de petróleo por meio de aprendizado de máquina-
Tipo de arquivo: dc.typeTrabalho de conclusão de curso-
Aparece nas coleções:Repositório Institucional da Universidade Federal Fluminense - RiUFF

Não existem arquivos associados a este item.