探秘WAIC镇馆之宝：AI“钓鱼”AI，人类看戏

白交 2023-07-10 21:57:10 来源：量子位

来自蚂蚁天筭实验室

杨净发自 WAIC

量子位 | 公众号 QbitAI

一个专攻大模型的“黑客”，竟摇身一变，当选人工智能大会（WAIC） “镇馆之宝”？！

WAIC镇馆之宝展区上，一众人工智能领域创新成果亮相。

不管从科技含量、市场前景、通用性、社会经济效益等维度都具有先进性和代表性。

这当中，竟意外发现了个“异类”。

别看它一个矮萌机器人，表面人畜无害。但背地里专干“钓鱼执法”的事儿，引诱大模型“越狱”。

据称，背后生成的花样诱导问题都是百万数量级起的。

探秘AIGC镇馆之宝

事实上，这个机器人名为蚁鉴，通过智能对抗技术，自动并持续生成海量测试集话术，诱导AIGC对话模型生成风险内容。

像一个24小时不眠不休的“安全黑客”找茬大模型，定位大模型存在的弱点和安全问题所在，实现以攻促防。

换句话说，AI“钓鱼”AI。

于是乎，在展区现场就形成了一场奇妙的AI对垒——

左边正是“蚁鉴机器人”，右边则是一个具备文本生成文本对话能力的语言模型，两两对抗。

中间的显示屏记录了一切，嗯，专供给人类看戏。

旁边的工作人员透露了左边选手的底牌：是生成式AI安全检测平台“蚁鉴”通过AI自动生成的百万量级诱导攻击提问，涵盖“内容安全”、“数据安全”、“科技伦理”三个大的模块，共有数百种风险类别。

每个模型基本上能被攻击个三四万次。

攻击过程中，它还会不断精进更新话术，增强自己的能力。

不过称之为“AI黑客”并不恰当，更准确地来说，是个AIGC安全性测评工具。

这是因为诱导之后，它会自动生成一份检测报告，从可用、可靠、可信和可控等维度来衡量AIGC模型的潜在风险。

从技术维度出发，整个过程可以分成三个步骤：

自动生成海量测试用例；诱导式对抗检测系统；根据诱导生成模型和标准评价模型生成测评报告

可以看到的是，从第一步自动生成测试数据开始，它就已经将生成数据进行了结构化处理。

按照生成渠道、诱导等级来划分，分别都划分了四个等级。（按照等级从小到大排列）

生成渠道：人工生成、模版生成、指令生成、诱导生成；

诱导等级：正常话题、安全话题、文本对抗、逻辑对抗。

不过这并非蚁鉴的首次亮相，去年WAIC上就已经上线1.0版本。今年，这套平台全面升级2.0版本。

在原有鲁棒性测评工具的基础上，新增了前文所述的AIGC安全性评测，以及可解释性评测工具。

它能围绕完整性、准确性、稳定性、差异性等7个评测维度及20项评测指标，利用逻辑推理、因果推断等技术，对AI系统进行分析和评价，支持表格、文本、图像等多种数据和任务类型。

目前，通过蚂蚁与清华大学等机构的联合科研，已经将“蚁鉴2.0”这套工具推向通用化和标准化——

支持数字金融、教育、电商等大规模复杂的业务场景对AI安全性检测需求。

据了解，这种实现产业级应用支持文本、图像等全数据类型的AI安全检测平台。放眼业内，尚属首次。

既然如此，这样一个“AI安全黑客”，究竟如何炼成？

来自蚂蚁安全天筭实验室

随着人工智能走向生成式2.0时代，如何用可信AI保障着AI的创造力，也成为全球产学研界热议的焦点。

自2015年起，蚂蚁集团就开启了可信AI的相关实践和探索。

作为蚂蚁集团在人工智能领域的重点布局之一，专注于可信AI技术研究的蚂蚁安全天筭（音同“算”）实验室就由此诞生。

据实验室主任张天翼介绍，目前实验室主要做两件事。

一件事是安全需要AI。

诸多像反欺诈、反洗钱、企业联合风控、数据隐私保护在内的风控场景，对AI的诉求比以往高出不少。通过AI技术建设起一套智能风控解决方案，还支撑起了支付宝的智能化不断升级，保障了十几亿人的数字化服务体验。

据工作人员介绍，

完成一笔支付的风控判断，往往只需10毫秒。支付宝资损率连续三年低于亿分之一。

另一件事就是AI需要安全。

今天AI系统各种智能模型，广泛地应用于各种业务场景中，模型本身的安全、可靠、可信等方面的考量和评估，也就成为了AI系统稳定运行的关键基石。具体产品代表也就是AI安全检测平台2.0。

这次世界人工智能大会上，蚂蚁可信AI技术架构得到首次系统公开——

可信AI决策大脑，基于底层软、硬件、计算平台底层基础设施，围绕模型全流程各阶段打造解决方案。

整个技术体系的打造核心围绕着可信AI的四项基本技术原则，包括鲁棒性、可解释性以及隐私保护和公平性。

基于多年深耕，蚂蚁安全天筭实验室在可信AI领域的技术成果得到业界多方认可。

据全球权威知识产权第三方机构IPRdaily发布《AI安全可信关键技术专利分析简要报告》显示：

截至2022年11月28日，蚂蚁集团以753件专利位居第一，远高于其他企业。并且已经连续两年取得这样的成绩，布局全球15个市场。

天筭实验室也经常亮相各大顶会。比如在AAAI-23会议中，他们在全图风控和可信 AI 方向上，共有4篇关于对抗算法、图算法和隐私保护的论文入选。

在大模型研发中，安全也是蚂蚁的关注重点。前段时间，蚂蚁官宣正在和清华大学携手推动“安全通用大模型”的技术路线和落地研究，以应对大模型技术爆发时代的安全科技生产力问题，及通用AI能力广泛应用带来的新型未知风险防控。

在此之前，双方曾通过CCF-蚂蚁科研基金、定向联合研究等模式，开展了多项课题合作。清华大学高等研究院还与蚂蚁集团联合设立了“隐私计算与区块链联合研究中心”。

AI治理往何处去？

最后，回到这件事情本身，AIGC安全检测，其实是当下整个AI发展的一个缩影。

随着ChatGPT，以及一系列相关AI技术在全世界产生越来越大的影响。对于AI治理问题被提上日程，成为了整个社会迫切要解决的事情。

前段时间，深度学习之父突然离职退休，只为“为了自由地讨论人工智能的风险”。

不久之后，包括马斯克、苹果创始人沃兹尼亚克、OpenAI创始人山姆·奥特曼等等在内的一众科技领袖和行业专家，共同签署发布了一封联名信。

这封公开信号召人们警惕AI给人类带来的风险，并且把这一事物作为“全球的优先级”。

同一时间，AI诈骗造假上升到了新高度，各种整活儿冲上热搜震惊全网。

事实上，在此之前国内外产学研已经展开一定的探索。

着眼于国内，前几年，业界集中成立了一批关注隐私计算的公司；著名计算机科学家周以真曾经发表《可信人工智能》一文，探讨“可信AI”的定义；

而央行、国家市场监督管理总局也都曾经发布过相关规范，为不同领域的AI算法确立了安全评估标准……

但现在特别是今年，AI技术范式发生突破性变革，整个产业格局乃至社会环境也随之发生了翻天覆地的变化。

我们对于通用AI应用在各行业的想象也更加具象。

比如在AI课堂，它能根据不同学生的学习进度量身定制、因材施教，提供灵活学习模式与进度跟踪；还有游戏行业，多模态对话、与具有自主意识的NPC互动，给玩家带来更沉浸式的体验……

那么关于AI治理、AI安全、可信AI的研究与探索，也势必会因时制宜地诞生出新的思考和方法论。

中国信息通信研究院研究员龚柳婷表示，为未来趋势的风险做前瞻性布局。

首先预测人工智能领域未来发展趋势，主要有两个方向，通用人工智能和具身智能。为了更好地应对人工智能发展过程中可能出现的新风险、新挑战，我们需要在人工智能生产全生命周期进行提前布局和准备，在技术应用设计之初，就将可信AI的原则作为整体技术发展的价值判断。

那么更关注技术前瞻性的学术界，是否可以给出更多可行路径？

清华助理研究员赵乙则谈到了两点措施：

第一点，加大对AI可解释性研究的投入。特别是对于网络空间安全和互联网体系结构等这些细分领域。这些领域与国家安全密切相关，可信AI尤为重要。

第二点，关注AI技术存在的客观限制，如何利用特定领域的客观限制，主动地提升AI可解释性，规避潜在风险。

至于产业界，蚂蚁集团张天翼则表示，会倾向判断什么趋势是不变的，然后围绕这一原则展开。

那就是真正让AI保持在一个可用、可控、可信、可靠这样的这个框架内。

可信AI如何量化？

为了更好理解可信AI发展和未来趋势，量子位专程邀请到了中国信息通信研究院研究员龚柳婷、清华助理研究员赵乙、蚂蚁安全天筭实验室张天翼，与三位国内深度参与可信AI构建的行业从业专家展开了探讨。

在不改变原意的基础上，量子位做了如下梳理。

1、量子位：什么时候开始关注可信AI？跟当初相比有什么变化？

赵乙：最早2018读博时期，看到网络安全四大顶会开始有AI安全方面的工作，但研究相对不多。但近几年每年顶会都有单独的track收录这个方向的论文，研究人员和研究成果都有很大数量的增加。

龚柳婷：我个人最早是从2020年开始关注可信AI的，当时主要是从产业的实践当中发现了人工智能技术和应用存在的客观风险和问题，当时可信AI的理念已经被一些企业认可，并且开始探索相关的企业实践，例如成立人工智能伦理治理委员会等。到了现在，可信AI基本形成了全球共识，成为了落实人工智能治理的重要方法论，企业也成为了实践可信AI的重要力量。

张天翼：我个人是在18年19年左右开始接触可信AI实践。前几年工作更倾向于单点问题解决，现在可信AI成为一个整体概念，更多体系化、完整的解决方案诞生。

2、量子位：可信AI在各位眼中到底是什么？应该有什么标准？

龚柳婷：可信AI标准框架，应该覆盖人工智能全生命周期，同时需要包括组织管理、风险控制、具体技术等角度。

赵乙：从定义讲，可信AI至少包括三个要素：1、鲁棒性；2、隐私保护；3、泛化能力，这三个要素也是相互循环的。

张天翼：可信AI在产品落地上是个高速发展的概念，并与人类生活密切相关，很多产品比如谷歌亚马逊的语音助手，明确强调数据收集尊重用户因素。

3、量子位：国内外产学研界一些具体、比较明显的AI风险场景？

赵乙：我研究的重点还是围绕网络空间安全领域，比如用AI去做恶意流量的检测。

龚柳婷：当下关注度比较高等风险之一是AIGC生成内容的风险，比如可能生成暴力黄色等不合规内容，以及对话式模型在不同语言环境下会给出不一样的回答等，这些问题需要通过内容过滤和筛选机制等风险控制机制来缓解和规避。

张天翼：从黑灰产角度，现在用来生成攻击、伪造的材料成本降低了，那么就会有更多非法尝试，比如图片证件的伪造。

4、量子位：可信AI如何变成一个可量化、可比较的指标？

张天翼：这是个非常大的难点。一种比较常见的思路是根据应用场景提炼，来衡量模型的鲁棒性和安全性。但在可解释性上，很难用完整、单一的指标来衡量它。我们一个非常重要的工作思路就是将机器学习与专家经验进行一个更好的融合，怎么去提炼出融合范式。

5、量子位：技术在防范AI风险中扮演什么角色？

龚柳婷：技术是帮助我们落地AI风险防范原则的重要手段。任何的可信AI原则都不可能自我执行，必须借助一系列相互配合的运作机制才能得到落实。通过技术、管理等手段等配合，制定出一套针对性、可操作的系统化落地方案，才能将可信AI的原则落实到一个个具体的应用场景中，解决具体的问题。

赵乙：专家知识是非常宝贵的财富，这肯定必须应用。但因为可解释性的原因，我认为今后一个可能方向，就是魔法打败魔法，就比如大模型安全问题，可能会设计一种更行之有效的大模型去发现其他大模型的问题。

白交

空间智能卡脖子难题被杭州攻克！难倒GPT-5后，六小龙企业出手了2025-08-28
陈丹琦有了个公司邮箱，北大翁荔同款2025-08-28
英伟达最新芯片B30A曝光2025-08-20
AI应用如何落地政企？首先不要卷通用大模型2025-08-12

探秘WAIC镇馆之宝：AI“钓鱼”AI，人类看戏

探秘AIGC镇馆之宝

来自蚂蚁安全天筭实验室

AI治理往何处去？

可信AI如何量化？

相关阅读

金山办公携WPS AI亮相2023世界人工智能大会

AI重塑合辑｜从技术热潮到产业范式转移，WAIC共探企业新质生产力

北电数智WAIC首秀，展示星火·大平台落百业丰硕成果

即刻成团！CONNECT采购团组直通WAIC+2025，尽享全球顶尖AI资源0620

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

什么是真正好用的推理模型？阶跃Step 3：开源的，多模态的，低成本的，国产芯片适配的

热门文章

李飞飞世界模型公司一年估值暴涨5倍！正洽谈新一轮5亿美元融资

“开源版贾维斯”一夜席卷硅谷！Mac mini因它卖爆

瑞幸背后的芯片，藏不住了

Skills刚火，就有零Skill的Agent来了…

爆火Clawdbot被Claude公司强制要求改名