
handle: 10216/169707
A Aprendizagem Federada (FL) é uma abordagem de aprendizagem automática distribuída que permite o treino colaborativo de modelos sem necessidade de centralizar dados sensíveis, prometendo privacidade, embora se tenha demonstrado vulnerável a ataques de inferência de associação e de reconstrução de dados. A Criptografia Homomórfica (HE) pode mitigar estes problemas ao permitir a realização de operações sobre dados cifrados. Contudo, o seu elevado custo computacional e a expansão do texto cifrado complicam a implementação em ambientes de recursos limitados. A Criptografia Híbrida Homomórfica (HHE) oferece uma alternativa mais prática ao combinar cifras simétricas leves com HE, reduzindo a sobrecarga nos clientes e mantendo a privacidade. Esta tese investiga a aplicação da HHE em FL e propõe uma nova plataforma de FL baseada em HHE que combina a cifra simétrica PASTA com o esquema HE BFV. Os clientes cifram as atualizações locais do modelo com PASTA e enviam-nas juntamente com a chave PASTA cifrada com a cifra BFV para o servidor. O servidor realiza então uma avaliação homomórfica do circuito de decifrar do PASTA e agrega os dados cifrados resultantes. Para mitigar os riscos de confidencialidade decorrentes do uso de uma chave HE partilhada, foram desenvolvidas duas estratégias: encapsulamento RSA, que cifra a chave PASTA (já cifrada com BFV) com a chave pública RSA do servidor, e o uso de máscaras, em que os clientes enviam uma chave com uma máscara que o servidor posteriormente retira durante a agregação. O sistema foi integrado na plataforma Flower e avaliado com uma versão independente e identicamente distribuída do conjunto de dados MNIST, distribuída por 12 clientes ao longo de 10 rondas de treino. Os resultados demonstram que os esquemas HHE alcançaram um nível de precisão comparável ao treino em dados não cifrados (97,58 \% a 98,33\% face a 98,93\%), reduziram o tamanho do modelo cifrado por um fator de 2.077×, o tráfego de envio dos clientes até 61,73× e o tempo de execução do cliente em até 30\%, em comparação com um sistema baseado exclusivamente no esquema HE BFV. No entanto, o custo computacional do servidor aumenta aproximadamente 6.700× por cada cliente participante na fase de treino. No geral, o estudo demonstra que a HHE proporciona um equilíbrio eficaz entre privacidade, eficiência e precisão em FL para dispositivos com recursos limitados. Embora a escalabilidade do lado do servidor continue a ser um desafio, a abordagem proposta constitui uma das primeiras demonstrações práticas de HHE aplicada a FL.
Federated Learning (FL) is a distributed machine learning approach that enables collaborative model training without centralizing raw data, promising privacy but having been shown to be vulnerable to membership inference and reconstruction attacks. Homomorphic Encryption (HE) can address those privacy concerns by allowing computation on encrypted updates. However, its high computational cost and ciphertext expansion hinder deployment in resource-constrained environments. Hybrid Homomorphic Encryption (HHE) offers a more practical alternative by combining lightweight symmetric ciphers with HE, reducing client overhead while maintaining end-to-end privacy. This thesis investigates the application of HHE in FL and proposes a novel HHE-based FL framework that combines the PASTA symmetric cipher with the BFV HE scheme. Clients encrypt local model updates with PASTA and send both the lightweight ciphertext and the BFV encryption of the PASTA key to the server. The server then performs a homomorphic evaluation of the decryption circuit of PASTA and aggregates the resulting BFV ciphertexts. To mitigate confidentiality risks stemming from the use of a shared HE key, two mitigation strategies were developed: RSA wrapping, which re-encrypts the BFV-encrypted PASTA key under the server's RSA public key, and Masking, where clients encrypt a masked key that the server later unmasks during aggregation. The system was integrated into the Flower framework and evaluated under an independent and identically distributed partitioned version of the MNIST dataset with 12 clients across 10 training rounds. The results demonstrate that the HHE schemes achieved accuracy comparable to plaintext training (97.58\%-98.33\% vs. 98.93\%), while reducing the encrypted model size by a factor of 2,077$\times$, client upload traffic by up to 61.73×, and cutting client runtime by at most 30\% compared to a system based solely on the BFV HE scheme. However, server computational cost increases by roughly 6700$\times$ for each client participating in the training phase. Overall, the study shows that HHE provides an effective balance between privacy, efficiency, and accuracy in FL for resource-constrained devices. While server-side scalability remains a challenge, the proposed approach constitutes one of the first practical demonstration of HHE for FL.
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering, Electrical engineering, Electronic engineering, Information engineering, Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática, Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering, Electrical engineering, Electronic engineering, Information engineering, Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática, Engenharia electrotécnica, electrónica e informática
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
