3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA

导读让AI绘画模型变“乖”，现在仅需3秒调整模型参数。效果be like:生成的风险图片比以往最佳方法减少30%!像这样，在充分移除梵高绘画风格的同...

让AI绘画模型变“乖”，现在仅需3秒调整模型参数。

效果be like:生成的风险图片比以往最佳方法减少30%!

像这样，在充分移除梵高绘画风格的同时，对非目标艺术风格几乎没有影响。

在移除裸露内容上，效果达到“只穿衣服，不改结构”。

这就是复旦大学提出的概念移除新方法——RECE。

目前，基于扩散模型的AI生图有时真假难辨，常被恶意用户用来生成侵犯版权和包含风险内容（如虚假新闻、暴力色情内容）的图像。

SD中使用的的安全措施是使用安全检查器，对违规的生成图像不予展示，还集成了一些用classifier-free guidance来规避风险概念的方法。

但在开源条件下，恶意用户可以轻松绕过这些机制，网上甚至有大把的教程……

针对此，学界提出了“概念移除”，即通过微调来移除文生图扩散模型中特定的风险概念，使其不再具备生成相应内容的能力。

这种方法的资源消耗远低于从头重新训练的SD v2.1版本，也不能被轻易绕过。

而最新研究RECE，拿下概念移除SOTA效果，并且对无关概念破坏极小，论文已被顶会ECCV2024接收。

整个过程基于高效的解析解

此前，尽管概念移除进展迅速，其问题仍然明显:

已有的方法为了安全性牺牲了较多的生成质量。

已有方法即使对模型破坏较大，仍不能充分移除不当概念，有很大几率生成风险图像。

大多数方法需要大量的微调步数，计算资源消耗大。

那么RECE是如何实现的?

RECE主要包含两个模块:模型编辑和嵌入推导。

首先，RECE以解析解的形式，在交叉注意力层中将风险概念映射到无害概念。

然后，RECE以解析解的形式推导出风险概念的新嵌入表示并用于下一轮的模型编辑。

RECE还包括了一个简洁有效的正则项，可以证明其具有保护模型能力的作用，进而保证概念移除可以交替进行多轮。整个概念移除的过程都基于高效的解析解。

风险概念嵌入推导

RECE的有效性来自于对已有方法概念移除不彻底的观察:

以”裸露“为提示词，SD生成了裸露图像，UCE（一种概念移除方法）成功避免了裸露内容的生成;

然而，输入有意设计的提示词或文本嵌入，UCE再次生成了裸露内容。

为引导编辑后的模型重新生成裸露内容，接下来将以“裸露”为例，介绍RECE是如何推导上述具有攻击性的概念嵌入的。

既然是文生图，那首先思考文本引导的机制——交叉注意力。

SD利用CLIP作为文本编码器得到提示词的嵌入形式，并且获得key与value，与表征视觉特征的query一起，得到输出:

如果能得到一个新的概念嵌入，满足在编辑后的交叉注意力映射后，足够接近经过编辑前的映射值，那么应能够诱导生成裸露图片:

上式为凸函数，因此具有解析解，不需要繁琐的梯度下降近似求解:

模型编辑

接下来RECE将编辑交叉注意力以移除风险概念。RECE借鉴了已有的方法UCE，通过解析解来编辑交叉注意力的权重，一步到位，避免繁琐微调。

给定“源”概念（例如，“裸露”），“目标”概念(例如，空文本“ ”)，以及交叉注意力的K/V投影矩阵，UCE的目标是找到新权重，将新权重下的映射值对齐到。

其中后面两项是为了控制参数变化，最小化对无关概念的影响。这也是凸函数，将解析解直接赋值给新权重:

正则项

理想情况下，将公式（5）得到的移除就可以避免生成裸露内容了，然而团队发现这会对模型能力产生极大的破坏。

因此在相邻的两轮概念移除中，RECE对无关概念的映射值变化做了约束:

学过线性代数的同学是不是觉得很熟悉呢?

利用矩阵范数的相容性，证明得到:

因此只需在推导时添加一个范数约束项，就能保护模型的能力:

其解析解为:

综上，RECE的算法流程归纳为:

RECE效果如何?

不安全概念移除

首先来看最敏感的内容——色情。在I2P基准数据集上，RECE的裸露移除效果超过了全部已有方法。

团队还评估了概念移除后模型的正常内容生成能力，即无关概念集COCO-30k上的FID指标，也远超CA等方法。

艺术风格移除

保护艺术版权不受AI侵犯同样十分敏感。综合效果方面，RECE优于所有方法。

并且细致来看，RECE是唯一一个在目标艺术家擦除效果和无关艺术家保留效果方面都表现优异的方法。

红队鲁棒性

RECE对恶意用户的有意攻击同样可以有效防护，在红队攻击下，RECE生成风险图片的几率仍是最低。

模型编辑耗时

RECE5个Epoch仅需3.4秒，参数改动比例、编辑耗时远低于CA等方法。UCE的耗时也很短，但UCE的概念移除效果与RECE相差较大。

作者简介

论文共同第一作者为复旦大学视觉与学习实验室的硕士新生公超和博士生陈凯。

通讯作者为陈静静副教授。

研究团队专注于AI安全的研究，近年来在CVPR，ECCV，AAAI，ACM MM等顶会上发表过多篇AI安全的研究成果。

论文地址:https://arxiv.org/abs/2407.12383

代码地址:https://github.com/CharlesGong12/RECE

相关热词：

免责声明：本文由用户上传，如有侵权请联系删除！

生活知识小技巧网

首页

国内研究

国外研究

健康新闻

健康资讯

养生资讯

社会百态

医学前沿

社会动态

生活知识

每日动态

3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA｜ECCV 2024

相关推荐

最新文章

头条推荐 | 热门文章 | 精选文章

中燃投资有限公司50亿元小公募债项目状态更新为“终止”

两市融资余额减少55.09亿元

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

美光将买友达台南两座厂区？双方回应：不予评论

华泰证券：建议配置低融资敞口A50、景气持续的电子、船舶、降息强受益的医药

严惩“配合造假”，监管部门重拳压实中介机构责任

利率调控信号更清晰，逾4000亿元MLF今日续做

多股获社保和养老基金重仓持有

二季度56家财险公司车均保费均值环比上升约7.4%

中泰证券：未来房地产行业数据有望随着政策的持续推出探底企稳

3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA｜ECCV 2024

俞敏洪杀了个“回抖枪”

ChatGPT有多全能，女生用ChatGPT测网恋对象是否谎报身高，误差只有2厘米

3C厂商如何接住黑神话的泼天富贵，我们总结了五个绝招！

银河证券：继续看好银行板块红利价值

10岁小孩哥热衷各种维修：长大想修理飞机和坦克

华泰证券：港股近期建议配置ROE韧性及美元利率敏感资产

国金证券：半年报开启电新板块“龙头α”再验证，胜率、赔率皆佳的布局窗口明确

中信建投：未来民航市场有望保持持续增长

基金年内分红超1100亿元，债基占比超八成

国泰君安：美债利率短期下行后仍将高位震荡，美股预计先下后上

国金证券：定价调控政策“及时雨”助力缓释利差压力，有望驱动保险股估值修复

天风证券：市场左侧信号已经逐步显现，重仓机会仍需等待右侧信号出现

分析：鲍威尔明确表示政策调整时机已到，9月或降息50个基点

嘉晨西海与盖茨基金会签署RSV疫苗项目资助协议

信用风险冲击转债市场，基金重新审视投资策略

终止上市审核项目涉及四大问题，北交所多种手段严把入口关

三年期持有基金纷纷解禁，业绩不佳值得反思

历史老师玩黑神话投入到手抖：希望新学期与学生有更多共同话题

取消IPO结果导向奖励影响深远，地方助推企业上市转向重服务