Chest X-ray description based on lightweight language models for accessible medical imaging analysis
Talles Viana Vargas
DISSERTAÇÃO
Inglês
T/UNICAMP V426c
[Descrição de radiografias de tórax baseada em modelos leves de linguagem para uma análise acessível de imagens médicas]
Campinas, SP : [s.n.], 2025.
1 recurso online (82 p.) : il., digital, arquivo PDF.
Orientadores: André Santanchè, Hélio Pedrini
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Grandes modelos de linguagem (LLMs) têm sido amplamente empregados em diversas tarefas de processamento de texto, incluindo a geração de conteúdo, tradução ou correção textual. Na visão computacional, esses modelos possuem aplicações na geração de legendas a partir de imagens e em sistemas...
Ver mais
Resumo: Grandes modelos de linguagem (LLMs) têm sido amplamente empregados em diversas tarefas de processamento de texto, incluindo a geração de conteúdo, tradução ou correção textual. Na visão computacional, esses modelos possuem aplicações na geração de legendas a partir de imagens e em sistemas de perguntas e respostas visuais (VQA). Na área de imagens médicas, embora existam estudos propondo diagnósticos automatizados de diferentes modalidades (raios-X, ressonância magnética, tomografia computadorizada), poucos trabalhos exploram o potencial dos LLMs nesse contexto. Os estudos existentes frequentemente priorizam a melhora de desempenho utilizando modelos com dezenas de bilhões de parâmetros, resultando em soluções computacionalmente custosas. Dessa forma, este trabalho avaliou a utilização de LLMs pré-treinados com um número relativamente menor de parâmetros para gerar descrições de imagens de raio-X torácico no contexto médico. O principal objetivo deste trabalho foi desenvolver uma arquitetura leve adotando LLM, buscando utilizar modelos pré-treinados para reduzir custos computacionais sem comprometer significativamente a qualidade dos resultados. Avaliamos múltiplas escolhas para a arquitetura, incluindo a seleção de um modelo de visão computacional ideal (U-Net vs. PSPNet) e a inicialização do módulo Q-Former com pesos do domínio (BiomedBERT). Nossos experimentos foram conduzidos utilizando métricas de eficácia clínica (CE) - precisão, revocação e medida F1 - e métricas de geração de linguagem natural (NLG), como BLEU e ROUGE. A análise qualitativa das amostras de texto geradas revelou que o modelo produz descrições detalhadas e clinicamente relevantes, frequentemente superando a brevidade dos laudos de referência. No entanto, alucinações ocasionais - frases sem sentido ou irrelevantes - foram observadas, particularmente em casos onde os achados não ficam claros. Comparações quantitativas com métodos estado da arte mostraram que nossa arquitetura, com apenas 347 milhões de parâmetros no gerador de texto, alcançou desempenho competitivo, particularmente em precisão (0,5142) e medida F1 (0,4564), mantendo um custo computacional significativamente menor em comparação com modelos como XRayGPT (7 bilhões de parâmetros) e Med-PaLM (540 bilhões de parâmetros). Os resultados obtidos demonstraram o potencial dessa abordagem para beneficiar médicos emergencistas e estudantes de medicina durante o processo de análise de raios-X torácicos, potencialmente fornecendo suporte através de pré-escrita, pré-análise e auxílio na elaboração de laudos. O sistema proposto permite a execução em computadores com configuração padrão, tornando-o acessível para ambientes com recursos limitados. A implementação desta tecnologia pode tornar as análises mais rápidas e precisas, aumentando a eficiência desses profissionais na prática clínica
Ver menos
Abstract: Large Language Models (LLMs) have been widely employed in various text processing tasks, including content generation, translation, and textual correction. In computer vision, these models have applications in generating captions from images and in Visual Question-Answering (VQA) systems....
Ver mais
Abstract: Large Language Models (LLMs) have been widely employed in various text processing tasks, including content generation, translation, and textual correction. In computer vision, these models have applications in generating captions from images and in Visual Question-Answering (VQA) systems. However, in the field of medical imaging, while studies exist proposing automated diagnoses for different modalities (X-rays, magnetic resonance imaging, computed tomography), few works explore the potential of LLMs in this context. Existing studies frequently prioritize performance improvement using models with tens of billions of parameters, resulting in computationally expensive solutions. Addressing this gap, this work evaluates the use of pre-trained LLMs with a relatively smaller number of parameters to generate descriptions of thoracic X-ray images in the medical context. The main objective of this work was to develop a LLM-driven lightweight architecture, prioritizing pre-trained models to reduce computational costs without significantly compromising result quality. We evaluated multiple design choices, including the selection of an optimal image encoder (U-Net vs. PSPNet) and the initialization of the Q-Former module with domain-specific weights (BiomedBERT). Our experiments were conducted using both clinical efficacy (CE) metrics—precision, recall, and F1-score—and natural language generation (NLG) metrics such as BLEU and ROUGE scores. Qualitative analysis of generated text samples revealed that the model produces detailed and clinically relevant descriptions, often surpassing the brevity of reference reports. However, occasional hallucinations -- meaningless or irrelevant phrases -- were observed, particularly in cases of subtle findings. Quantitative comparisons against state-of-the-art methods showed that our architecture, with only 347 million parameters in its text decoder, achieved competitive performance, particularly in precision (0.5142) and F-Score (0.4564) while maintaining significantly lower computational demands compared to models such as XRayGPT (7 billion parameters) and Med-PaLM (540 billion parameters). The results obtained demonstrated the potential of this approach to benefit emergency physicians and medical students during the process of analyzing chest X-rays, potentially providing support through pre-writing, pre-analysis, and assistance in report preparation. The proposed system can be run on standard-configured computers, making it accessible to environments with limited resources. Its implementation enables faster and more accurate analyses, enhancing the efficiency of professionals in clinical practice
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Chest X-ray description based on lightweight language models for accessible medical imaging analysis
Talles Viana Vargas
Chest X-ray description based on lightweight language models for accessible medical imaging analysis
Talles Viana Vargas