纽约大学坦顿工程学院(NYU Tandon School of Engineering)的研究人员揭示了最近提出的方法的关键缺陷,这些方法旨在使强大的文本到图像生成人工智能系统更安全地供公众使用。
在将于2024年5月7日至11日在维也纳举行的第十二届国际学习表征会议(ICLR)上发表的一篇论文中,研究团队展示了如何通过简单的攻击绕过声称“消除”稳定扩散等模型生成明确的、受版权保护的或其他不安全的视觉内容的能力的技术。该论文也出现在预印本服务器arXiv上。
Stable Diffusion是一个公开可用的AI系统,可以通过文本描述创建高度逼真的图像。研究中生成的图像示例在GitHub上。
该论文的资深作者、纽约大学坦顿电子与计算机工程系和计算机科学与工程系的副教授Chinmay Hegde说:“文本到图像模型以其从文本描述中创造几乎任何视觉场景的能力席卷了世界。”“但这为人们制作和传播逼真的图像打开了大门,这些图像可能具有很强的操纵性、冒犯性,甚至是非法的,包括名人深度伪造或侵犯版权的图像。”
研究人员调查了七种最新的概念删除方法,并演示了如何使用“概念反转”攻击绕过过滤器。
通过学习特殊的词嵌入并提供它们作为输入,研究人员可以成功地触发稳定扩散,以重建清理旨在消除的概念,包括仇恨符号、商标物品或名人肖像。事实上,该团队的反转攻击几乎可以重建原始稳定扩散模型能够重建的任何不安全图像,尽管声称这些概念已被“删除”。
这些方法似乎在执行简单的输入过滤,而不是真正地去除不安全的知识表示。攻击者可能会在公开发布的净化模型上使用这些相同的概念反转提示来生成有害或非法的内容。
研究结果引发了人们对过早部署这些消毒方法作为强大的生成式人工智能的安全解决方案的担忧。
Hegde说:“要使文本到图像的生成人工智能模型无法创建糟糕的内容,就需要改变模型训练本身,而不是依赖于事后修复。”“我们的研究表明,布拉德·皮特不太可能成功地要求现代人工智能‘忘记’他的外表。一旦这些人工智能模型可靠地学习了概念,几乎不可能从它们身上完全去除任何一个概念。”
根据Hegde的说法,研究还表明,所提出的概念擦除方法不仅必须在一般样本上进行评估,而且必须在评估过程中明确地针对对抗性概念反转攻击进行评估。
与Hegde合作进行这项研究的是该论文的第一作者,纽约大学坦顿大学博士候选人范明;纽约大学坦顿分校博士候选人戈文·米塔尔;纽约大学坦顿学院研究生凯利·o·马歇尔和纽约大学坦顿学院博士后研究员尼夫·科恩。
这篇论文是Hegde的最新研究成果,他的工作重点是开发人工智能模型来解决成像、材料设计和运输等领域的问题,并找出当前模型的弱点。
在最近的另一项研究中,Hegde和他的合作者透露,他们开发了一种人工智能技术,可以改变图像中一个人的表观年龄,同时保持其独特的识别特征,这是标准人工智能模型向前迈出的重要一步,标准人工智能模型可以使人看起来更年轻或更老,但不能保留他们的个人生物识别信息。
更多信息:Minh Pham等人,文本到图像生成模型的规避概念擦除方法,arXiv(2023)。DOI: 10.48550/ arXiv .2308.01508期刊信息:arXiv由纽约大学坦顿工程学院提供引文:研究揭示了通过文本到图像的人工智能模型(2024年3月14日)防止非法内容生成措施的失败,检索自2024年3月14日https://techxplore.com/news/2024-03-exposes-illegal-content-generation-text.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。