本文研究了对抗样本对代表性负荷频率控制(LFC)模型性能的影响,并提出了一种新的稳健的LFC框架以抵御对抗样本的影响。
问题表述
将从人群中学习对抗性的问题形式化为双层最小-最大问题,包含外部子问题和内部子问题。外部子问题旨在最大化模型对对抗样本的鲁棒性,内部子问题则通过投影梯度下降(PGD)生成对抗性样本。
方法
提出了一种基于两阶段标签聚合(LFC)的方法(A-LFC),具体步骤如下:
- E步:通过期望最大化(EM)算法推断真实标签的后验概率分布。
- M步:使用反向传播和工人的混淆矩阵学习神经网络参数,更新工人混淆矩阵。
实证结果
- 数据集:LabelMe(图像分类)、MGC(音乐流派分类)、Sentiment(电影评论情感极性)。
- 基线方法:两阶段方法(MV+NN、DS+NN)、一阶段方法(AggNet、CL)。
- 对抗攻击:FGSM、PGD、CW、MIM。
- 鲁棒性测试:在白盒和黑盒攻击下评估分类器的测试准确率。
- 工人混淆矩阵:在MGC和Sentiment数据集上展示了学习到的工人混淆矩阵。
结论
- 研究了对抗样本对LFC模型性能的影响,并提出了新的稳健LFC框架。
- 将对抗环境下的LFC问题形式化为双层最小-最大问题,并通过EM算法和PGD解决。
- 未来工作计划研究对抗其他类型对抗攻击(如数据污染)的方法。