Weightless neural network training and inferencing over encrypted data
Leonardo Henrique Neumann
DISSERTAÇÃO
Inglês
T/UNICAMP N397w
[Treinamento e inferência de redes neurais sem pesos sobre dados criptografados]
Campinas, SP : [s.n.], 2025.
1 recurso online (69 p.) : il., digital, arquivo PDF.
Orientadores: Edson Borin, Diego de Freitas Aranha, Antônio Carlos Guimarães Júnior
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: A adoção em massa de algoritmos de aprendizado de máquina trouxe preocupações dentro da comunidade de pesquisa de privacidade de dados, exigindo esforços para desenvolver técnicas de preservação de privacidade. Entre essas abordagens, a avaliação homomórfica de algoritmos de aprendizado de...
Ver mais
Resumo: A adoção em massa de algoritmos de aprendizado de máquina trouxe preocupações dentro da comunidade de pesquisa de privacidade de dados, exigindo esforços para desenvolver técnicas de preservação de privacidade. Entre essas abordagens, a avaliação homomórfica de algoritmos de aprendizado de máquina se destaca por ser capaz de computar diretamente sobre dados encriptados, oferecendo garantias de confidencialidade robustas. Enquanto houve progresso significativo em algoritmos eficientes de criptografia homomórfica (HE) para inferência em Redes Neurais Convolucionais (CNNs), ainda não existem soluções eficientes para treinamento encriptado. As soluções atuais geralmente dependem de protocolos interativos, que, embora preservem a privacidade, impõem um enorme custo de comunicação. Essa limitação destaca a demanda por soluções de aprendizado de máquina mais rápidas que preservem a privacidade e possam manter a confidencialidade dos dados e o desempenho do modelo em uma ampla gama de aplicações. Este trabalho apresenta uma nova abordagem para o aprendizado de máquina com preservação de privacidade por meio da avaliação homomórfica do Algoritmo de Reconhecimento de Wilkie, Stonham e Aleksander (WiSARD) (Aleksander et al., 1984) e subsequentes Redes Neurais Sem Peso (WNNs) de última geração, usando o esquema TFHE de criptografia totalmente homomórfica (FHE). Apresentamos várias contribuições, incluindo extensões para o TFHE, otimizações de parâmetros e modificações nas WiSARDs para melhorar a acurácia. Nossa abordagem permite o treinamento e a inferência baseada em FHE, juntamente com técnicas complementares, como balanceamento homomórfico. Avaliamos nossos modelos homomórficos WiSARD em relação a abordagens de última geração em três conjuntos de dados de referência: MNIST, HAM10000 e Wisconsin Breast Cancer. Nossos resultados demonstram melhorias significativas de desempenho, alcançando níveis de latência competitivos em minutos de treinamento criptografado em comparação aos dias exigidos por trabalhos anteriores. Para o MNIST, alcançamos 91,71% de acurácia após apenas 3,5 minutos de treinamento encriptado, aumentando para 93,76% após 3,5 horas. No HAM10000, alcançamos 67,85% de precisão em apenas 1,5 minutos, aumentando para 69,85% após 1 hora. Comparado ao Glyph (Lou et al., 2020), o estado da arte em treinamento homomórfico, esses resultados representam ganhos de desempenho de até 1200 vezes com uma perda máxima de acurácia de 5,4%. Para HAM10000, alcançamos até mesmo uma melhoria de acurácia de 0,65% sendo 60 vezes mais rápidos. Nossos modelos oferecem um bom balanço entre velocidade, acurácia e preservação de privacidade. Também demonstramos a praticidade da nossa abordagem em hardware nível consumidor, treinando mais de 1000 imagens do MNIST em 12 minutos ou o conjunto inteiro do Wisconsin Breast Cancer em apenas 11 segundos usando um único núcleo e menos de 200 MB de memória. A nossa técnica se destaca pela flexibilidade em cenários como aprendizado distribuído, federado e contínuo. Embora ainda não alcance a acurácia das CNNs, as WiSARDs homomórficas representam um passo significativo para tornar o aprendizado de máquina baseado em FHE mais acessível para aplicações de dados sensíveis
Ver menos
Abstract: The generalized adoption of machine learning algorithms has brought concerns within the data privacy research community, demanding efforts to develop privacy-preserving techniques. Among these approaches, the homomorphic evaluation of machine learning algorithms stands out for its ability...
Ver mais
Abstract: The generalized adoption of machine learning algorithms has brought concerns within the data privacy research community, demanding efforts to develop privacy-preserving techniques. Among these approaches, the homomorphic evaluation of machine learning algorithms stands out for its ability to perform computations directly on encrypted data, offering robust and inherent confidentiality guarantees. While homomorphic encryption (HE) has made significant progress in enabling practical inference for Convolutional Neural Networks (CNNs), the challenge of efficient encrypted training remains unsolved. Current solutions often rely on interactive protocols, which, while preserving privacy, imposes a huge communication overhead. This limitation highlights the demand for faster privacy-preserving machine learning solutions that can maintain both data confidentiality and model performance across a wide range of applications. This work presents a novel approach to privacy-preserving machine learning through the homomorphic evaluation of Wilkie, Stonham, and Aleksander’s Recognition Device (WiSARD) (Aleksander et al., 1979) and subsequent state-of-the-art Weightless Neural Networks (WNNs), using the TFHE Fully Homomorphic Encryption (FHE) scheme. We introduce several contributions, including extensions to TFHE, optimizations of cryptographic parameters, and modifications to the WiSARD algorithm to improve accuracy. Our approach enables FHE training and inference, alongside complementary techniques such as homomorphic dataset balancing. We evaluate our Homomorphic WiSARDs against state-of-the-art approaches on three benchmark datasets: MNIST, HAM10000, and Wisconsin Breast Cancer. Our results demonstrate significant performance improvements, achieving competitive accuracy levels in minutes of encrypted training compared to days required by previous works. For MNIST, we achieve 91.71% accuracy after only 3.5 minutes of encrypted training, rising to 93.76% after 3.5 hours. On HAM10000, we reach 67.85% accuracy in just 1.5 minutes, increasing to 69.85% after 1 hour. Compared to Glyph (Lou et al., 2020), the state-of-the-art in homomorphic training, these results represent speedups of up to 1200 times with a maximum accuracy loss of 5.4%. For HAM10000, we even achieved a 0.65% accuracy improvement while being 60 times faster. Our models offer a compelling trade-off between speed, accuracy, and privacy preservation. We also demonstrate the practicality of our approach on consumer-grade hardware, training over 1000 MNIST images in 12 minutes or the entire Wisconsin Breast Cancer dataset in just 11 seconds using a single thread and less than 200MB of memory. The flexibility of our technique in scenarios like distributed, federated, and continuous learning is highlighted. While not yet matching the peak accuracy of CNN approaches, Homomorphic WiSARDs represent a significant step towards making FHE-based machine learning more accessible and practical for sensitive data applications
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Borin, Edson, 1979-
Orientador
Aranha, Diego de Freitas, 1982-
Coorientador
Guimarães Junior, Antonio Carlos, 1994-
Coorientador
Lima, Priscila Machado Vieira
Avaliador
Pereira, Hilder Vitor Lima, 1989-
Avaliador
Weightless neural network training and inferencing over encrypted data
Leonardo Henrique Neumann
Weightless neural network training and inferencing over encrypted data
Leonardo Henrique Neumann