Semantic representations based on language models
Fagner Leal Pantoja
TESE
Inglês
T/UNICAMP P196s
[Representações semânticas baseadas em modelos de linguagem]
Campinas, SP : [s.n.], 2025.
1 recurso online (106 p.) : il., digital, arquivo PDF.
Orientadores: Claudia Maria Bauzer Medeiros, André Santanchè
Tese (doutorado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Os modernos Modelos de Linguagem (e.g., GPT e BERT) fornecem novas abordagens para Representação de Semântica, encapsulando, em espaços vetoriais, os padrões estatísticos subjacentes aos textos. Entretanto, apesar das pesquisas associadas, ainda existem lacunas quanto ao uso de modelos de...
Ver mais
Resumo: Os modernos Modelos de Linguagem (e.g., GPT e BERT) fornecem novas abordagens para Representação de Semântica, encapsulando, em espaços vetoriais, os padrões estatísticos subjacentes aos textos. Entretanto, apesar das pesquisas associadas, ainda existem lacunas quanto ao uso de modelos de linguagem aplicados a criação, ao gerenciamento e à análise de textos médicos. Com o objetivo de preencher algumas destas lacunas, neste trabalho projetamos e analisamos dois tipos de representações semânticas: Anotações Semânticas e Modelagem de Tópicos. Tais representações viabilizam a incorporação de significado semântico em formatos de dados interpretáveis por máquinas. Nossas contribuições utilizam, como pano de fundo, dados públicos do domínio clínico. Três de nossas contribuições estão relacionadas às Anotações Semânticas. A primeira é um modelo de linguagem -- que chamamos de Envoy -- especializado em Reconhecimento de Entidades Nomeadas biomédicas. Este modelo serve como base para construir duas contribuições adicionais associadas com anotações semânticas. O Envoy é acionado pelo método Harena Semantics (nossa segunda contribuição) para realizar a anotação semântica de conceitos relevantes contidos no texto de entrada. Uma característica distintiva de nossa abordagem é a superposição de anotações realizadas por humanos com aquelas inferidas automaticamente pelo Envoy. Em um estudo de caso, aplicamos o Harena Semantics para produzir nossa terceira contribuição: o Paciente Virtual Semântico, uma representação semântica que modela casos clínicos como uma rede de conceitos conectada à Web Semântica. Nossos resultados preliminares sugerem um potencial promissor para o engajamento de criadores de recursos semânticos. A quarta contribuição diz respeito à Modelagem de Tópicos. Aqui, o modelo Envoy é utilizado para elicitar tópicos semânticos a fim de representar uma coleção de Casos Clínicos extraídos do corpus CliCR. Com esse próposito, desenvolvemos uma nova abordagem chamada ABT (Attention-based Topics), uma representação estatística baseada em modelos de tópicos. Nesta linha, o ABT produz tópicos por meio de uma Agregação Hierárquica aplicada às sentenças de entrada, representada em um espaço vetorial inferido pelo modelo de linguagem BERT. Os resultados da validação indicam que os tópicos produzidos exibem: (1) bons valores na métrica Coerência de Tópicos; e (2) diferentes graus de especialização/generalização, de acordo com o modelo de linguagem utilizado como base
Ver menos
Abstract: Modern Language Models (e.g., GPT and BERT) provide new approaches to Semantic Representation by embedding in vector spaces the statistical patterns underlying texts. Despite advances in related research, there are gaps concerning the application of language models to the creation,...
Ver mais
Abstract: Modern Language Models (e.g., GPT and BERT) provide new approaches to Semantic Representation by embedding in vector spaces the statistical patterns underlying texts. Despite advances in related research, there are gaps concerning the application of language models to the creation, management and analysis of medical texts. In order to fill some of these gaps, we designed and analyzed two types of semantic representation, namely, Semantic Annotations and Topic Modeling. These representations enable the integration of semantic meaning into machine-interpretable data formats. Our contributions use public open data from the clinical domain. Three of our contributions are associated with Semantic Annotations. The first one is a language model -- called Envoy -- specialized in biomedical Named Entity Recognition. The model is used as a basis to construct two additional contributions concerning Annotations. Envoy is invoked by our Harena Semantics method (which corresponds to the second contribution) to perform the semantic annotation of relevant concepts inside medical texts. A distinctive feature of our approach is the superimposition of annotations added by humans with annotations inferred by the Envoy model. As a case study of Harena Semantics, we applied it to produce our third contribution: the Semantic Virtual Patient, a semantic representation that models clinical cases as a network of concepts linked to the Semantic Web. Our preliminary results suggest a potential for engaging semantic resource creators. The fourth contribution concerns Topic Modeling. Here, the Envoy model is used to elicit semantic topics to represent a collection of Clinical Cases extracted from the CliCR corpus. To this purpose, we developed a new approach, called ABT (Attention-based Topics), a statistical representation based on topic models. In this line, ABT produces topics through a Hierarchical Aggregation applied to the sentences contained in a given reference corpus, which is represented in a vector space inferred by the BERT language model. The results of our evaluation showed that the topics produced exhibit: (1) good values according to the Topics Coherence metric; and (2) different degrees of generalization/specificity according to the language model used as a basis
Ver menos
Aberto
Medeiros, Claudia Maria Bauzer, 1954-
Orientador
Santanchè, André, 1968-
Coorientador
Mello, Ronaldo dos Santos
Avaliador
Ciferri, Ricardo Rodrigues
Avaliador
Pedrini, Hélio, 1963-
Avaliador
Dados de pesquisa: https://doi.org/10.25824/redu/R15PFJ
Semantic representations based on language models
Fagner Leal Pantoja
Semantic representations based on language models
Fagner Leal Pantoja