Gesture recognition in Brazilian Sign Language (Libras) using Vision Transformer (ViT)
Wladimir Arturo Garcés Carrillo
DISSERTAÇÃO
Inglês
T/UNICAMP G164g
[Reconhecimento de gestos em Língua Brasileira de Sinais (Libras) utilizando Vision Transformer (ViT)]
Campinas, SP : [s.n.], 2024.
1 recurso online (134 p.) : il., digital, arquivo PDF.
Orientadores: Marcelo da Silva Reis, Emely Pujólli da Silva
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Esta dissertação aborda o desafio da escassez de dados no reconhecimento de sinais da Língua Brasileira de Sinais (Libras) utilizando técnicas de aprendizado profundo, em particular o Vision Transformer (ViT). A falta de dados amplamente disponíveis e anotados corretamente dificulta o...
Ver mais
Resumo: Esta dissertação aborda o desafio da escassez de dados no reconhecimento de sinais da Língua Brasileira de Sinais (Libras) utilizando técnicas de aprendizado profundo, em particular o Vision Transformer (ViT). A falta de dados amplamente disponíveis e anotados corretamente dificulta o desenvolvimento de tecnologias de Reconhecimento Automático de Línguas de Sinais (ASLR), especialmente para Libras. Para enfrentar esse problema, propomos explorar diferentes abordagens de aumentação de dados sendo eles o padrão, e modelos de difusão. Além disso, utiliza-se o aprendizado por transferência, visando melhorar o desempenho em múltiplos conjuntos de dados de Libras. O trabalho também introduz uma abordagem inovadora de análise de movimento por meio de Imagens de Energia de Marcha Coloridas (CGEI), que permite capturar informações detalhadas sobre os sinais, contribuindo para o aumento da precisão dos modelos. Os modelos ViT e ResNet-50 foram avaliados com base em dados de Libras, comparando o desempenho dessas arquiteturas em protocolos de divisão de dados estratificados e controlados. Os resultados demonstram que o uso de técnicas avançadas de aumento de dados, juntamente com os modelos de aprendizado profundo, se mostrou como uma solução promissora para lidar com a escassez de dados em Libras. Os modelos ViT, em particular, mostraram melhor desempenho em relação a outras abordagens previamente utilizadas para o problema. Espera-se que esta pesquisa contribua para o desenvolvimento de tecnologias mais precisas e acessíveis, promovendo a inclusão da comunidade surda no Brasil
Ver menos
Abstract: This dissertation addresses the challenge of data scarcity in recognizing Brazilian Sign Language (Libras) signals using deep learning techniques, particularly Vision Transformer (ViT). The lack of widely available and correctly annotated data hinders the development of Automatic Sign...
Ver mais
Abstract: This dissertation addresses the challenge of data scarcity in recognizing Brazilian Sign Language (Libras) signals using deep learning techniques, particularly Vision Transformer (ViT). The lack of widely available and correctly annotated data hinders the development of Automatic Sign Language Recognition (ASLR) technologies, especially for Libras. To tackle this issue, we propose exploring different data augmentation approaches, including standard methods and diffusion models. Additionally, transfer learning is utilized to enhance performance across multiple Libras datasets. The work also introduces an innovative approach to motion analysis through Color Gait Energy Images (CGEI), which allows for capturing detailed information about the signals, contributing to increased model accuracy. ViT and ResNet-50 models were evaluated based on Libras data, comparing the performance of these architectures in stratified and controlled data splitting protocols. The results demonstrate that the use of advanced data augmentation techniques, combined with deep learning models, proves to be a promising solution for addressing data scarcity in Libras. ViT models, in particular, showed better performance compared to other previously used approaches for this problem. This research is expected to contribute to the development of more accurate and accessible technologies, promoting the inclusion of the deaf community in Brazil
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Reis, Marcelo da Silva, 1979-
Orientador
Silva, Emely Pujólli da, 1990-
Coorientador
Silva, Ivani Rodrigues, 1955-
Avaliador
Pedrini, Hélio, 1963-
Avaliador
Gesture recognition in Brazilian Sign Language (Libras) using Vision Transformer (ViT)
Wladimir Arturo Garcés Carrillo
Gesture recognition in Brazilian Sign Language (Libras) using Vision Transformer (ViT)
Wladimir Arturo Garcés Carrillo