Acelerando redes neurais convolucionais para super-resolução de vídeo em GPUs integradas
João Vitor Rafael Chrisóstomo
DISSERTAÇÃO
Inglês
T/UNICAMP C461a
[Accelerating convolutional neural networks for video super-resolution on integrated GPUs]
Campinas, SP : [s.n.], 2024.
1 recurso online (88 p.) : il., digital, arquivo PDF.
Orientadores: Gilmar Barreto, Paulo Victor de Oliveira Miguel
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Faculdade de Engenharia Elétrica e de Computação
Resumo: Numa era dominada pelo consumo multimédia, a procura por conteúdos visuais de alta qualidade está aumentando. No entanto, há uma biblioteca cada vez maior de conteúdos produzidos no passado visando telas de resoluções mais baixas e fatores como a banda disponível limitam a resolução em que o...
Ver mais
Resumo: Numa era dominada pelo consumo multimédia, a procura por conteúdos visuais de alta qualidade está aumentando. No entanto, há uma biblioteca cada vez maior de conteúdos produzidos no passado visando telas de resoluções mais baixas e fatores como a banda disponível limitam a resolução em que o conteúdo moderno pode ser transmitido. As técnicas tradicionais de reamostragem geralmente não conseguem trazer o vídeo de baixa resolução aos padrões modernos, e a imagem acaba ficando borrada ou desprovida de detalhes. Este trabalho aborda esse desafio aproveitando os avanços recentes em aprendizado de máquina, especificamente Redes Neurais Convolucionais (CNNs), para super-resolução de vídeo. A arquitetura foi meticulosamente ajustada para encontrar um equilíbrio entre qualidade de reconstrução e eficiência computacional, visando inferência em tempo real em GPUs integradas de baixo consumo de energia. As técnicas exploradas neste trabalho vêm de modelos estabelecidos como SRCNN, FSRCNN, ESPCN, VDSR, ESRGAN, RDN e RCAN. Estes modelos citados, em sua maioria, focaram principalmente no aumento da qualidade da reconstrução, resultando em modelos muito lentos para inferência em tempo real. Neste trabalho, as mesmas técnicas foram adaptadas para arquiteturas menores na tentativa de encontrar o modelo ideal para inferência em tempo real. O modelo de partida, entitulado de EDSR baseline, alcançou um desempenho de 0.6 quadros por segundo para um fator de escala de 2x com entradas em 720p na GPU integrada Intel Iris Xe LP. O modelo final, após as várias simplificações, aumentou esta métrica para 28 quadros por segundo. O treinamento perceptual e adversário também se mostraram viáveis na rede final, tornando possível que o modelo alucine detalhes realistas. Finalmente, o mesmo modelo também foi treinado com imagens com compressão JPEG, forçando-o a aprender como limpar os artefatos de compressão. Ao explorar os limites das técnicas de super-resolução em hardware simples, este trabalho abre caminho para experiências multimídia de alta qualidade e em tempo real para uma ampla variedade de dispositivos
Ver menos
Abstract: In an age dominated by multimedia consumption, demand for high-quality visual content is rising. However, there’s an ever-growing library of content produced in the past targeting lower resolution displays, and factors like the available bandwidth limit the resolution in which modern...
Ver mais
Abstract: In an age dominated by multimedia consumption, demand for high-quality visual content is rising. However, there’s an ever-growing library of content produced in the past targeting lower resolution displays, and factors like the available bandwidth limit the resolution in which modern content can be served. Traditional resampling techniques are usually unable to bring low resolution video up to modern standards, and the image ends up looking blurry or devoid of fine-detail. This work addresses this challenge by leveraging recent advancements in machine learning, specifically Convolutional Neural Networks (CNNs), for video super resolution. The architecture was meticulously fine-tuned to strike a balance between reconstruction quality and computational efficiency, aiming for real time inference on low-power consumer-grade integrated GPUs. The techniques explored in this work come from established models such as SRCNN, FSRCNN, ESPCN, VDSR, ESRGAN, RDN and RCAN. These models focused mainly on increasing reconstruction quality, resulting in ever-growing models that are too slow to be used in real time. The same techniques were adapted to smaller architectures in an attempt to find the optimal model for real time inference. The starting model, the EDSR baseline, had the inference throughput of 0.6 frames per second on the Intel Iris Xe LP integrated GPU with a 2x scaling factor on 720p inputs. The final model, after all the simplifications, improved this metric to 28 frames per second. Perceptual and adversarial training were also viable with the final model, allowing it to hallucinate realistic details. Finally, the same model was also trained with images with JPEG compression, which forced the model to learn how to clean compression artifacts. By pushing the boundaries of super-resolution techniques on consumer-grade hardware, this work paves the way for real-time, high-quality multimedia experiences on a wide array of devices
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Barreto, Gilmar, 1958-
Orientador
Miguel, Paulo Victor de Oliveira, 1960-
Coorientador
Salviano, Clenio Figueiredo
Avaliador
Manêra, Leandro Tiago, 1977-
Avaliador
Acelerando redes neurais convolucionais para super-resolução de vídeo em GPUs integradas
João Vitor Rafael Chrisóstomo
Acelerando redes neurais convolucionais para super-resolução de vídeo em GPUs integradas
João Vitor Rafael Chrisóstomo