Privacy-Preserving Byzantine-Robust Federated Learning via Blockchain Systems
可译为“利用区块链实现隐私保护的拜占庭鲁棒性联邦学习”
这篇是今年八月份被TIFS2022(CCF A)收录的文章,写的利用全同态加密和区块链技术解决联邦学习中隐私问题和可信问题(虽然区块链仅仅只是存储的作用,也稍微提了一下)。精读完这篇文章,整体感觉还不错,毕竟是CCF A类期刊。下面是自己读后感,根据自己的语言来做了一些笔记,也相当于回顾。其中,有理解不到位的地方望指正,建议读者还是看原文。
文章目录预览
摘要:由于中心化的联邦学习(Federated Learning,FL)框架和不可靠的用户,传统FL容易遭受恶意客户端和服务器的投毒攻击。本文设计了一个通过区块链系统实现隐私保护拜占庭鲁棒性联邦学习(PBFL)方案,来减轻中央服务器和恶意客户端的影响。利用余弦相似度来判断恶意客户端上传的恶意梯度。然后,采用全同态加密来提供安全的聚合。最后,使用区块链系统来促进透明的流程和法规的实施。形式化分析证明了本方案能达到收敛和提供隐私保护。
主要内容:
(1)最常用的隐私保护联邦学习使用paillier同态加密算法来加密本地梯度,然而作者通过做实验比较了CKKS和paillier加密和解密向量所花的时间(CKKS: Homomorphic Encryption for Arithmetic of Approximate Numbers)。结果表明,CKKS算法效率更高,更适合处理大尺度向量和多参数网络模型。因此,本文使用CKKS加密局部梯度,以提高计算效率。
(2)隐私保护联邦学习(PPFL)仍受到投毒攻击。如经过训练的模型会对一个特定的类做出错误的预测,或全局模型对大量类做出错误预测。
(3)PPFL容易受到服务器恶意聚合和单点故障威胁。现有的FL方案在提高安全性和高效率的适合,无法抵抗客户端毒化攻击和避免服务器恶意行为,且在实践中扩展性不强。
本文主要用到的是全同态加密(CKKS)技术,自己也在看这篇文章前,花了三四天读CKKS论文,结合他人对CKKS的介绍才懂了这个全同态加密方法。可以参考全同态CKKS方案解析.
注意以下几个点:
具体流程如下:

将原联邦学习中的服务器扩展为两个“诚实且好奇”的服务器,分别为Verifier和Solver,它们不共谋。
由Solver服务器设置一个小而干净的根数据集 D 0 D_0 D0,并基于它维护一个模型 w 0 w_0 w0,根据算出来的梯度 g i 0 g^0_i gi0和Clients上传的梯度 g i j g^j_i gij的余弦相似度,以此来去除恶意的梯度。
本篇文章只有一个框架图,具体发送什么并不是很清晰,为了便于自身理解,画了一个流程图如下:
首先初始化,密钥生成中心为Verifier和Client生成公私钥对,分别为 ( p k v , s k v ) (pk_v,sk_v) (pkv,skv), ( p k x , s k x ) (pk_x,sk_x) (pkx,skx)。

很自然,当客户端上传归一化的梯度后,需要Solver判断收到的梯度是否真的进行了归一化处理,防止恶意客户端行为。所以,当Solver收到 [ [ g ~ i j ] ] p k v [[\widetilde{g}^j_i ]]_{pk_v} [[g ij]]pkv后,计算其内积,再发送给Verifier,即 [ [ r 1 ] ] p k v = [ [ g ~ i j ] ] p k v ⊙ [ [ g ~ i j ] ] p k v [[r_1]]_{pk_v}=[[\widetilde{g}^j_i ]]_{pk_v}⊙[[\widetilde{g}^j_i ]]_{pk_v} [[r1]]pkv=[[g ij]]pkv⊙[[g ij]]pkv。这里就要用到乘同态性质,两个向量分别加密后相乘等于两个向量先相乘再加密的结果。具体步骤如下:
然后将所有的 [ [ r 1 ] ] p k v [[r_1]]_{pk_v} [[r1]]pkv发送给Verifier进行验证,Verifier将得到诚实客户端的列表 C C C存储到区块链上,并发给Solver。不难看出,如果梯度真实地归一化处理后,两个向量的内积和应该为1,即 r 1 = 1 r_1=1 r1=1,只需判断 [ [ r 1 ] ] p k v = [ [ 1 ] ] p k v ? [[r_1]]_{pk_v}=[[1]]_{pk_v}? [[r1]]pkv=[[1]]pkv?即可。
这里仅仅是判断梯度是否归一化处理,恶意客户端也可以诚实的归一化处理吧,只是他的梯度方向偏离较大。

本文采用了亚密上CKKL19全同态加密中密文比较方法。但是这篇文章只给出了在[0,1]范围内同态密码比较的一种数值方法。但是余弦相似度落在[-1,1]范围内,因此无法直接拿来用,需要做一个转换使其满足要求:
因此,转换ReLU函数变成了ReLU’函数:
[
[
S
i
j
]
]
=
R
e
L
U
(
[
[
c
s
i
j
]
]
)
=
{
1
2
(
[
[
c
s
i
j
]
]
+
[
[
1
]
]
)
,
if
1
2
(
[
[
c
s
i
j
]
]
+
[
[
1
]
]
)
>
[
[
1
/
2
]
]
[
[
1
/
2
]
]
,
if
1
2
(
[
[
c
s
i
j
]
]
+
[
[
1
]
]
)
≤
[
[
1
/
2
]
]
[[S^j_i]]=ReLU([[cs^j_i]])=\begin{cases} \frac 12([[cs^j_i]]+[[1]]), & \text{if $\frac12([[cs^j_i]]+[[1]])>[[1/2]]$} \\ [[1/2]], & \text{if $\frac12([[cs^j_i]]+[[1]])\leq[[1/2]]$} \end{cases}
[[Sij]]=ReLU([[csij]])={21([[csij]]+[[1]]),[[1/2]],if 21([[csij]]+[[1]])>[[1/2]]if 21([[csij]]+[[1]])≤[[1/2]]
然后再利用Algorithm 4同态比较方法,得到权重的密文
[
[
S
i
j
]
]
[[S^j_i]]
[[Sij]]。

2)Solver获得所有Client的分数 [ [ S i j ] ] [[S^j_i]] [[Sij]]。但这个分数的密文还只是变换后的分数,则原始分数应该为 [ [ S i j ] ] p k v ′ = 2 ⋅ [ [ S i j ] ] p k v − [ [ 1 ] ] p k v [[S^j_i]]'_{pk_v}=2·[[S^j_i]]_{pk_v}-[[1]]_{pk_v} [[Sij]]pkv′=2⋅[[Sij]]pkv−[[1]]pkv
3)Verifier执行以下加解密操作。
4)Solver执行以下聚合操作。
由此看出,在本方案中Verifier和Solver不能得到除求和以外的任何信息,即使获得了求和结果也无法从中得到有价值的信息。除非两个合谋,但前提已经假设不能合谋。此外,Solver和Verifier都需要向智能合约缴纳保证金,并将在任务结束时以客户端的保证金作为奖励。
区块链的作用:存储中间参数信息,保证这些信息是可信,无法篡改的。
数据集:采用MNIST和FashionMNIST,分别选取200个数据作为数据集
D
0
D_0
D0。
实验平台:Ethereum区块链设置,使用Truffle部署在私有区块链上,Tenseal库实现CKKS算法。
结论:在目标攻击和非目标攻击和不同比例恶意客户端的情况下,对不同类型的投毒攻击仍能达到鲁棒性和准确性的目标。

结论:在目标攻击和非目标攻击和不同比例恶意客户端的情况下,几乎能够达到与Baseline一样的准确性,比Krum算法好很多。
3)区块链上的开销

结论:本方案实现了较低的gas消耗,因为把计算负担留给了线下服务器,只把结果上传到区块链,这大大降低了gas的消耗。
4)非平衡数据下的性能
考虑现实原因,根数据集可能是不均匀分布的。假设根数据集共有10个类的标签,且下一个类总比前一类多 n ′ n' n′个,则数据非平衡程度为 u = ( a + 9 ∗ n ′ ) / a u=(a+9*n')/a u=(a+9∗n′)/a。
结论:数据集 D 0 D_0 D0中的分布差异不会对结果产生太大影响,结果显示可以忽略数据分布差异对结果的影响。
个人觉得这篇文章比较新颖的点有三处:
疑问: