Classificação de histórias e coerência textual : uma abordagem com inclusão de estrutura retórica e sintática em modelos de linguagem
Luiz Fellipe Machi Pereira
DISSERTAÇÃO
Multilíngua
T/UNICAMP P414c
[Story classification and textual coherence]
Campinas, SP : [s.n.], 2025.
1 recurso online (94 p.) : il., digital, arquivo PDF.
Orientadores: Sandra Eliza Fontes de Avila, Nádia Félix Felipe da Silva e Helena de Almeida Maia
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: O surgimento de modelos de linguagem mais sofisticados, como GPT-3, BERT e seus derivados, revolucionou as interações de sistemas computacionais e humanos. Com o tempo, sistemas com modelos maiores, com respostas melhores e interfaces amigáveis, como ChatGPT e Copilot, os tornaram ainda mais...
Ver mais
Resumo: O surgimento de modelos de linguagem mais sofisticados, como GPT-3, BERT e seus derivados, revolucionou as interações de sistemas computacionais e humanos. Com o tempo, sistemas com modelos maiores, com respostas melhores e interfaces amigáveis, como ChatGPT e Copilot, os tornaram ainda mais populares. Esses modelos são amplamente utilizados em aplicações que vão desde assistentes virtuais até geração automatizada de conteúdo, oferecendo respostas fluidas e contextualizadas. No entanto, um desafio persistente reside na capacidade de garantir que os textos gerados sejam não apenas gramaticalmente corretos, mas também semanticamente coerentes. A incoerência textual --- como contradições internas, quebras na progressão temática ou falhas na estrutura lógica --- pode comprometer a utilidade e a confiabilidade desses sistemas, especialmente em cenários críticos, como atendimento ao cliente, educação ou divulgação de informações. Identificar incoerências em textos gerados antes de disponibilizá-los aos usuários é um problema complexo. A fluência superficial dos modelos de linguagem muitas vezes mascara deficiências estruturais, criando a ilusão de qualidade em narrativas que, na realidade, carecem de lógica ou coesão. Essa limitação torna-se ainda mais relevante quando consideramos aplicações que demandam precisão narrativa, como a geração de textos com temática jornalística, roteiros ou materiais educativos. Além disso, a escassez de bases de dados anotadas com informações sobre coerência textual dificulta o treinamento e a avaliação de sistemas automatizados para essa tarefa. Anotar manualmente textos quanto à sua coerência exige perícia linguística e tempo, uma vez que a coerência envolve múltiplas camadas, como a organização de argumentos, definição de temática e contexto de mundo, aspectos que não são trivialmente quantificáveis. Diante desse cenário, este estudo propõe uma metodologia para realizar a classificação de histórias coerentes usando modelos de linguagem e comparar seu desempenho ao de um modelo em que é feita a integração de informações sintáticas e retóricas. A abordagem central baseia-se na incorporação de símbolos especiais derivados de conhecimentos advindos de teorias da linguística. Para validar a proposta, construímos um corpus de histórias, denominado H.IAAC CommonStories, anotado automaticamente com relações retóricas e categorias sintáticas, com narrativas coerentes e versões incoerentes delas. Esse corpus foi utilizado para treinar e avaliar um modelo de linguagem adaptado, cuja robustez foi impulsionada ao estender o conhecimento do modelo. Além da avaliação no corpus desenvolvido, realizamos testes zero-shot em uma base de dados brasileira de desinformação (FakeTrue.BR), visando explorar a hipótese de que a coerência textual pode servir como indicador indireto para detecção de desinformação em cenários offline. Os resultados preliminares foram satisfatórios, sugerindo que textos incoerentes ou com estruturas retóricas fragmentadas tendem a correlacionar-se com conteúdo potencialmente enganoso, especialmente em contextos onde a verificação externa de fatos é limitada
Ver menos
Abstract: The emergence of more sophisticated language models, such as GPT-3, BERT, and their derivatives, has revolutionized the interactions between computer systems and humans. Over time, systems with larger models, better responses, and user-friendly interfaces, such as ChatGPT and Copilot, have...
Ver mais
Abstract: The emergence of more sophisticated language models, such as GPT-3, BERT, and their derivatives, has revolutionized the interactions between computer systems and humans. Over time, systems with larger models, better responses, and user-friendly interfaces, such as ChatGPT and Copilot, have made them even more popular. These models are widely used in applications ranging from virtual assistants to automated content generation, providing fluid and contextualized responses. However, a persistent challenge lies in the ability to ensure that the generated texts are not only grammatically correct but also semantically coherent. Textual incoherence --- such as internal contradictions, breaks in thematic progression, or flaws in logical structure --- can compromise the usefulness and reliability of these systems, especially in critical scenarios such as customer service, education, or information dissemination. Identifying incoherence in generated texts before making them available to users is a complex problem. The superficial fluency of language models often masks structural deficiencies, creating the illusion of quality in narratives that, in reality, lack logic or cohesion. This limitation becomes even more relevant when we consider applications that demand narrative precision, such as the generation of journalistic texts, scripts, or educational materials. Furthermore, the scarcity of annotated databases with information on textual coherence makes it difficult to train and evaluate automated systems for this task. Manually annotating texts for their coherence requires linguistic expertise and time since coherence involves multiple layers, such as the organization of arguments, the definition of theme, and world context, aspects that are not trivially quantifiable. In view of this scenario, this study proposes a methodology to classify coherent stories using language models and compare their performance to that of a model that integrates syntactic and rhetorical information. The central approach is based on the incorporation of special symbols derived from knowledge from linguistic theories. We built a corpus of stories to validate the proposal, called H.IAAC CommonStories, automatically annotated with rhetorical relations and syntactic categories, with coherent narratives and incoherent versions of them. We used this corpus to train and evaluate an adapted language model, whose robustness was boosted by extending the model's knowledge. In addition to the evaluation of the developed corpus, we performed zero-shot tests on a Brazilian disinformation dataset (FakeTrue.BR), aiming to explore the hypothesis that textual coherence can serve as an indirect indicator for detecting disinformation in offline scenarios. The preliminary results were satisfactory, suggesting that incoherent texts or texts with fragmented rhetorical structures tend to correlate with potentially misleading content, especially in contexts where external fact-checking is limited
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Avila, Sandra Eliza Fontes de, 1982-
Orientador
Silva, Nádia Félix Felipe da, 1983-
Coorientador
Maia, Helena de Almeida, 1992-
Coorientador
Pereira, Fabíola Souza Fernandes
Avaliador
Raimundo, Marcos Medeiros, 1988-
Avaliador
Classificação de histórias e coerência textual : uma abordagem com inclusão de estrutura retórica e sintática em modelos de linguagem
Luiz Fellipe Machi Pereira
Classificação de histórias e coerência textual : uma abordagem com inclusão de estrutura retórica e sintática em modelos de linguagem
Luiz Fellipe Machi Pereira