Detecção de erros em sentenças textuais para análise STPA com classificação via BERT
Andrey Toshiro Okamura
DISSERTAÇÃO
Português
T/UNICAMP Ok1d
[Detection of errors in textual sentences for STPA analysis with BERT classification]
Limeira, SP : [s.n.], 2025.
1 recurso online (72 p.) : il., digital, arquivo PDF.
Orientador: Ana Estela Antunes da Silva
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Faculdade de Tecnologia
Resumo: A System-Theoretic Process Analysis (STPA) é uma técnica de análise de perigos destinada a sistemas complexos, que investiga a interação dos componentes do sistema para encontrar perigos. Por ser uma técnica de muitas etapas, a STPA exige um esforço manual considerável, o que motivou esta...
Ver mais
Resumo: A System-Theoretic Process Analysis (STPA) é uma técnica de análise de perigos destinada a sistemas complexos, que investiga a interação dos componentes do sistema para encontrar perigos. Por ser uma técnica de muitas etapas, a STPA exige um esforço manual considerável, o que motivou esta pesquisa. O objetivo desta pesquisa é automatizar a validação de textos gerados durante o primeiro passo da análise STPA, chamado de "Definir o propósito da análise", em que se definem as Perdas (objetos de valor aos stakeholders em que perdas são inaceitáveis), os Perigos (condições do sistema que, em situações de pior caso, podem levar às perdas) e as Restrições (condições do sistema que devem ser satisfeitas para evitar perigos) do sistema. Estes registros textuais são sentenças de uma única linha que representam cada aspecto crucial do sistema, e devem ser levados em consideração para identificação de perigos e definição de regras. Este trabalho propõe um pipeline de modelos de aprendizado de máquina chamado BEDS: BERT Error Detection for STPA, (ou Detecção de erros com BERT para STPA), que tem o propósito de detectar erros e sugerir correções de sentenças para texto gerado durante o primeiro passo da análise STPA. Este pipeline é composto por 4 passos baseados no modelo de linguagem Bidirectional Encoder Representations from Transformers (BERT), onde a entrada é uma lista de sentenças e rótulos (com as classes de Perdas, Perigos e Restrições), e a saída do último passo são duas listas com as sentenças classificadas entre corretas ou incorretas com base no guia oficial de STPA (STPA Handbook). A lista de sentenças consideradas incorretas são acompanhadas pelo tipo de erro de escrita detectado, a probabilidade dos erros, e uma lista de sugestões de sentenças corretas para correção, para cada sentença incorreta. Os modelos foram avaliados com métricas de classificação de aprendizado de máquina: acurácia, precisão, sensibilidade e F1-Score. O primeiro passo de classificação, que determina a classe da sentença, atingiu 95,20% de acurácia. O segundo passo, que determina se a sentença é correta ou incorreta, atingiu a média entre os classificadores de 88,51% de acurácia. O terceiro passo, que detecta o tipo de erro presente na sentença incorreta atingiu a média de 83,44% de acurácia. O quarto e último passo utiliza um modelo de similaridade de sentenças para sugerir sentenças corretas com base em um dataset verificado por especialistas de STPA. As contribuições deste trabalho incluem a criação do pipeline de detecção de erros BEDS e a criação de um dataset de sentenças da análise STPA para treinamento e teste dos modelos de aprendizado de máquina
Ver menos
Abstract: The System-Theoretic Process Analysis (STPA) is a hazard analysis technique for complex systems that investigates the interactions between components to find hazards. STPA requires a lot of manual effort because it is a multi-step technique, which motivated this research. This work aims to...
Ver mais
Abstract: The System-Theoretic Process Analysis (STPA) is a hazard analysis technique for complex systems that investigates the interactions between components to find hazards. STPA requires a lot of manual effort because it is a multi-step technique, which motivated this research. This work aims to automate the text validation generated during the first step of the STPA analysis, called "Define the Purpose of the analysis" where the Losses (something of value which a loss is unacceptable to stakeholders), Hazards (a set of conditions that together with worst-case environmental conditions will lead to a Loss) and Constraints (system conditions that need to be satisfied to prevent hazards) are defined. These textual records are single-line sentences that represent the system's crucial aspects and should be taken into account when identifying hazards or defining rules. This work proposes a new machine learning model Pipeline called BEDS: BERT Error Detection for STPA, which aims to detect errors and suggest corrections to textual sentences generated during the first step of the STPA analysis. This Pipeline is composed of four steps that use the Bidirectional Encoder Representations from Transformers (BERT) language model, in which the input is a list of sentences and labels (with the Loss, Hazard, and Constraint classes), and the outputs are two lists that contain the sentences classified as either correct or incorrect based on the STPA Handbook. The list of incorrect sentences also contains the type of sentence error detected, the probability of each type of error, and a list of correct sentence suggestions for each incorrect sentence. The models were evaluated with machine learning classification metrics: accuracy, precision, recall, and F1-Score. The first classification step, which determines the class of a sentence, achieved an accuracy of 95.20%. The second step, which determines whether a sentence is correct or incorrect, achieved an accuracy average of 88.51% between the classifiers of each class. The third step, which detects the type of error in the incorrect sentences, achieved an accuracy average of 83.44%. The fourth and last step uses a sentence similarity model to suggest correct sentences based on a dataset validated by STPA specialists. The contributions of this work include the creation of the BEDS error detection Pipeline, and the creation of a STPA analysis sentence dataset for training and testing machine learning models
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Detecção de erros em sentenças textuais para análise STPA com classificação via BERT
Andrey Toshiro Okamura
Detecção de erros em sentenças textuais para análise STPA com classificação via BERT
Andrey Toshiro Okamura