本报告由清华大学博士后张诗瑶与AI辅助生成 生成式AI的普及正在重构虚假信息的威胁基线 核心洞察:AI谣言的变化,不只是“更容易造假”,而是“更容易被信、更容易被放大、更难被及时纠正”。 基于全球监管与顶尖学术的循证研究框架 演进与突变:从“信息失序”迈向自动化误导 AI谣言并没有脱离信息失序的范畴,但它将“虚假内容”与三大底层技术能力进行了深度耦合。 AI谣言不仅包含无意误导,更强调带有目的性的自动化操纵意图。 AI谣言的操作性定义与三大评估支柱 在内容虚假或高度误导的前提下,人工智能对其生成、伪造、包装或传播放大具有关键贡献的信息事件。 治理侧 核心洞察:AI谣言不是单纯的内容问题,而是包括“内容一模型一平台-用户一证据链”的复合治理对象。 核心洞察:AI谣言最大的变化不是“假得更多”,而是“假得更像真”。 Al谣言生态下的三种基础表现形态 AI直接生成型 AI辅助伪造型 AI放大型 以真实人物、真实事件、素材为锚点,进行换脸、变声、重组。 文本、图片、视频、音频由模型直接无中生有地生成。 内容未必全由AI生成,但依靠AI账号、群控、推荐系统被快速模板化放大。 监管视角必须从单纯盯防“生成工具”扩展到涵盖“编辑伪造”与“算法放大”全链路。 认知陷阱:为什么人类的理性核查正在失效? 技术现实主义 极度拟真的形式外观削弱了用户深度认知加工的动机。用户更易走向直觉判断而非理性核查。 逻辑伪装 文 本 极 其 流 畅 、 术 语 正 确 、 论证 结 构 完 整 , 但 核心结论虚假。传统基于关键词和情绪特征的检测方式面临瘫痪。 结构性不对称:现有治理体系的盲区 首轮传播后,纠错只能是“补救”而非“阻断”。 传统治理聚焦末端个体,而现代威胁源自系统级的生成设施。 传统目标:单条帖子/单个账号 真正风险源:模型能力、批量生产链与知识库投毒 核心洞察:应对系统性生产能力,治理必须从“末端删除负面内容”转向“前端约束风险基础设施”。 战术演进:从“单点造谣”到“攻击阵役化” AI谣言已经具备类似网络攻击中的战术、技术与过程(TTP)特征。 核心洞察:我们面对的不再是单一的虚假信息,而是一场高度协同的舆论操纵攻击。 拆解威胁生命周期:Al谣言传播杀伤链 通 过 小 号 、边缘 群 聊 、评 论区 先 发测试。 注入“权威感“现场感”与“证据感” 传播加速器:算法嗜好与社交机器人矩阵 社交机器人 作为加速器自动发布、转发、维持议题热度。在政治、健康争议议题上深度参与误导信息扩散,构筑极化的”回音室“。 平台算法 推荐系统天然倾向于高新奇度、高冲突度、高情绪强度的内容。AI谣言被定制化生成以突破”可见性阈值“。 核心洞察:平台的分发机制与机器人的自动化运作,共同构成了AI谣言风险的系统性底座。 跨平台迁移:语境坍塌与次生变异风险 危险往往发生在跨平台迁移之后。初始假内容被截图、配文、重新剪辑,彻底脱离原始语境,极大扩展误读空间。 每一次跨平台搬运,都是对溯源链条的一次切断与防御机制的绕过。 治理重构:从“真假之辩”走向“速度之战” 过去: 现在: 传统谣言治理是“谁说得更具煽动性”的真假博弈。 AI谣言治理是“谁先进入/阻断算法通道”的速度竞争。 治理的重心必须发生根本性前移——从依赖末端的“事后删帖辟谣”,全面转向前端的“早期识别拦截”与“扩散链路阻断”。 核 心 洞 察 : 面 对 分 钟 级 生 成 的AI谣 言 基 础 设 施 , 唯 有 构 建 毫 秒 级 响 应的 系 统 性 防 御 , 方 能夺 回 信 息 生 态 的 主 动 权 。 认知资源劫持:AI谣言的心理学机制 AI谣言不仅在欺骗眼睛,更在劫持我们的判断机制 我们通常认为,AI造假的可怕之处在于“太逼真以至于看不出破绽”。但实际上,人类并不会对接收到的每一条信息都进行严密的事实核查。在信息过载的社交蝶体环境中,大脑高度依赖启发式线索来快速判断可信度。 Al生成内容的“技术现实主义”会直接降低人类大脑的深度加工动机。 信息处理的双轨制:我们如何决定是否相信 完美模拟“可信线索”,将大脑推向边缘路径 Al谣言的说服力,很多时候并非来自事实,而是来自它‘看起来像事实’。 深度伪造正在摧毁“眼见为实”的底层逻辑 长期以来,图像和视频一直被公众乃至司法体系视为最高级别的“高可信证据”。深度伪造(Deepfakes)的泛滥,直接削弱了人类“眼见为实、耳听为实”的直觉本能。 认识论信任(Epistemic Trust)受损 引发的不只是个体被骗的风险,而是全社会对真实视听证据的普遍怀疑。 终极悖论:造假技术的存在,反而保护了真正的说谎者 真实视频被当事人反向指控为AI伪造 学术界将此称为“说谎者红利”(Liar's Dividend)。当全社会普遍意识到“视频可以轻易造假”时,确凿的真实证据也失去了原有的约束力。 AI谣言的本质:一场针对认知资源的劫持 Al并非仅仅是在提供虚假信息,它是一套极其高效的注意力黑客系统。它利用完美的边缘线索,直接使我们的认知防御机制瘫痪。 当直觉替代了判断 认知资源劫持的最终结果,是让未经验证的直觉,彻底替代经过审查的判断。 提取致病基因:Al谣言的6大传播因子 复杂性悖论:越精良,越难以引爆? 异常数据警告 AI谣言的终极武器不是技术复杂性,而是心理简单性。高复杂度的多模态信息反而增加用户的认知处理负担。最致命的数字病原体,在技术上刚刚好能骗过算法,但在心理上能瞬间击穿防御。 威胁建模:两种典型的大众化感染模式 SuspectProfile SuspectProfile 模式一:草根创作的强情感 模式二:权威背书的强冲突 变异循环:大众二次创作与千人千面 Step1:Al初代生成 开源工具使草根能够低成本制造高度逼真的多模态素材。 治理的真正痛点:原始辟谣往往无效,因为AI谣言在传播中会经历大众二次创作。 Step4:千人千面 Step2:情绪触发器 谣言衍生出无数变体,完全脱离最初的事实基础,深植于不同圈层。追踪原始信源失去意义。 视觉符号与极端情绪交织,刺激受众。 Step 3:自下而上的重构 (大众二次创作)受众主动下场修改、扭曲、拼接原始信息。 认知劫持:为什么我们会沦为传播节点? 判断、推理、逻辑分析。在面临AI视觉与情绪的双重轰炸时,这层防火墙往往被直接绕过。 感觉、知觉、本能反应。眼见为实带来的认知偏差,让受众被直观印象支配。 攻击机制:精准打击低阶认知。恐惧、安全威胁等本能情绪被触发后,受众在未经高阶理性性验证前,就已完成了转发与共享。 部署抗体:从算法阻断到认知摩擦 战略转移:仅仅依靠后置的事实核查与删帖已无法追赶Al的变异速度。必须将干预前置。 2.组态化风险研判 1.建立认知摩擦 3.阻断变异链 放弃单一指标监测,转向组态计算。当系统侦测到低知名度+强情绪+高切身利益的组合特征时,自动提升感胁预警等级。 针对大众二次创作,建立多模态跨平台特征追踪溯源,压制其指数级增长曲线。 通过人机协同模式,在用户浏览高情绪信息时,自动弹出风险要素,强制打断低阶认知的反射弧,激活高阶理性评价机制。 高危情绪信息AI强制打断 在生成式Al时代,打败机器的不仅是更强的机器,还有被重新唤醒的人类理性。 2022年:战争中的深度伪造首次成为全球舆论事件 事件:伪造泽连斯基呼吁乌克兰士兵投降 案例意义 媒介:视频 短时混乱:粗糙的技术依然足以在极端环境下制造恐慌。 爆发时间:2022年3月 处置过程: 信任降级:最深层的风险在于“狼来了”效应,它直接加剧了公众对后续真实视频的怀疑。 ●Reuters介入核查,确认视频制作粗糙,被迅速识破。Meta紧急移除相关内容。 ●乌克兰官方被迫发布真实视频进行回应。 2023年:AI图片引发短时市场与舆论抖动 ●事件:五角大楼“爆炸假图”在社交平台疯传 案例意义 ●媒介:图片 跨界联想:一张图片即可瞬间触发公共安全与金融市场的连锁反应。 ●爆发时间:2023年5月 真实度幻觉:伪造图像根本不需要“完美逼真”—它只需要足够像“突发新闻”。 ●处置过程: oAP(美联社)核查指出图片带有明显Al生成伪迹。o阿灵顿警方和消防部门出面澄清并无此事。 ●现实后果:假图扩散期间,直接引发金融市场短暂的紧张情绪。 2024年:深度伪造从公共舆论转向核心组织欺诈 ●事件:香港深度伪造视频会议与加密货币诈骗 案例意义 ●媒介:预录视频会议/深度伪造 威胁合流:Al谣言与AI诈骗正在形成完美的闭环汇流。 ●核心数据(香港警方书面披露): 2.4亿港元 目标升级:警钟敲响——受害者早早已不再只是缺乏辨别能力的普通网民,而是深谙企企业和组织流程的专业人员。 与400万港元(两宗预录视频会议诈骗损失) 超3.6亿港元 (利用deepfake实施的加密货币诈骗金额) 穿透表象:AI欺骗的四大底层法则 高风险议题优先:攻击者精准锁定能够引发高肾上腺素的领域——战争、选举、国家安安全、金融市场。 四个真实案例共同证实了一个冷酷的现实: AI谣言最危险的地方,不在于它能“持续欺骗很久”,而在于它能在很短的时间内造成真实的后果。 告别经验判断,将抽象危害转化为可比较的治理指标 平台:需要明确什么内容该限流、什么事件该升级。 研究者:需要比较不同事件、平台和国家的风险差异。 政策制定者:需要精准识别“高风险窗口”和“高风险对象”。 没有指标的治理只能停留在被动的经验判断。 可信AI离不开可识别、可管理、可评估的风险框架。 穿透信息迷雾的三维风险评估架构 内容层筛查:研判信息是否具备AI伪造特征 “像不像AI伪造? 深度伪造检测、内容凭证和水印机制各有其作用边界。这三项指标不绝对等同于“真假”,但构成了至关重要的第一道风险筛查。 主体层追踪:锁定传播网络中的核心节点与异常行为 “是谁在推、怎么在推?” Tactor(账号可信度)Bbot(机器人/半自动账号概率) 异常发帖频率 高同步性转发 账号画像模板化 历 史 违 规 记 录 捕捉主体层特征是实现早期预警的核心关键。 传播层量化:衡量短时高冲击态势下的网络级联效应 “扩散得有多快、多广、多难纠正?” v(t) (传播速度)&Scascade(级联规模):衡量爆发烈度。 Famp(放大因子):某条Al谣言在相似主题、相似时段下相对于真实信息的扩散倍率。 Ldebunk(辟谣滞后时间) :从首发到权威澄清的时间差。 治理的难点在于AI谣言的“短时高冲击”特征。放大因子越高、辟谣滞后越长,造成的系统性破坏呈指数级上升。 基于量化分数的阶梯式应急响应矩阵 【高分】跨部门联动 触发最高级别响应。引入权威机构核查,并立即进行证据保全。 【中分】限流与人工复核 启动算法干预阻断自动推荐,立即引入信任与安全团队的人工审核。 【低分】提示与观察 触发基础监控,在内容侧添加上下文提示标签。 将指标体系直接嵌入平台的业务流,实现从“事后扑火”向“全流程风险预控”的根本转变。 锚定国际标准,推动可信AI生态的闭环管理 本报告构建的治理型评分框架,不仅为当前迫切的AI谣言治理提供了实战工具,更在底层逻辑上与NISTAl风险管理框架(AIRMF)完美契合。量化风险,方能驾驭未来。 认知路线图:一场正在发生的防御范式转移 第二阶段技术突破 第三阶段信任危机 第一阶段策略重构 多模态与CIB框架的崛起,穿透复杂伪装。 告别单一检测路线,构建多维交叉证据网。 直面下一代威胁:大模型预训练与RAG知识库投毒。 构筑防御基石:当前检测方法的三条核心路线 模型检测 溯源验证 特征取证 核心动作:通过元数据、数字签名、水印和编辑链进行硬性验证 核心动作:查伪迹、查不