目 录CONTENT

文章目录

Doppel AI 防御系统在攻击扩散前实现拦截

Administrator
2025-11-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/doppel

原文作者:OpenAI


一个仿冒网站可在 1 小时内完成部署、攻击数千用户,然后消失无踪。这已足够让攻击者造成实质性破坏。而借助生成式工具,他们能瞬间批量创建数百个类似网站。

Doppel⁠⁠(在新窗口中打开)最初旨在保护组织免受深度伪造和网络冒充威胁,但很快意识到,AI 的出现意味着这些威胁可以被无限放大。攻击者不再需要手工制作骗局,仅需数秒便能生成无穷无尽的网络钓鱼工具包、伪造域名及仿冒帐户。

“网络钓鱼攻击通过社交媒体和即时通讯渠道扩散,短短数分钟内即可造成实质损害。如今,这些极具说服力的内容几乎可以零成本、大规模生成,一切因此而变。”
Rahul Madduluri,Doppel 联合创始人兼首席技术官

为主动防范,Doppel 开发了一种基于 OpenAI GPT‑5 和 o4-mini 模型的新型社会工程防御系统。Doppel 的平台能够自主检测、分类和消除威胁,从而将分析员的工作量削减 80%,将威胁处理能力提升三倍,并将响应时间从数小时缩短至数分钟。

抢占先机应对瞬息万变的威胁

传统数字风险防护需要依赖人工,去手动审核仿冒网站、钓鱼域名及社交媒体资料与帖子。随着攻击者实现自动化,其威胁发布速度与覆盖范围已超越人类评估能力,Doppel 预见原有模式即将“招架不住”。

Rahul 表示:“我们的系统持续处理海量信号流,从噪声中识别真实威胁。一旦检测到威胁,必须在造成损害前的极短时间内采取行动。基于 AI 实现决策自动化是我们取得的一项关键突破,使我们能以互联网级的规模与速度对抗攻击。”

这种速度对 Doppel 的客户至关重要,因为这些组织无法承担耗费数小时来确认威胁的代价。Doppel 的系统能够自动对大多数威胁进行分类,基于 OpenAI 模型进行推理,并采用名为强化微调 (RFT) 的结构化反馈循环来不断改进模型。在 RFT 中,人类反馈被用作分级示例,帮助模型学习如何自主做出一致且可解释的决策。

构建 LLM 驱动的威胁检测体系

Doppel 以 LLM 驱动的处理流程作为检测核心架构。在完成信号采集与过滤后,系统会执行系列针对性推理任务:解析潜在威胁、确认攻击意图并驱动分类决策。每个环节均兼顾速度、准确性与一致性,同时让分析员专注于需要人工判断的边缘案例。

流程图显示使用 LLM 进行威胁检测的流程,从源头和过滤,到特征提取和分类,再到最终验证和下架系统。GPT-5 和 o4-mini 等模型被应用于多个关键阶段。

其工作原理如下:

  1. 信号过滤与特征提取:Doppel 的系统每日接收数百万域名、URL 及帐户信息。系统会结合使用启发式方法与 OpenAI o4-mini,过滤掉噪声并提取结构化特征,从而指导下游模型评估。
  2. 并行威胁确认:每个信号都会经过多个专为不同类型威胁分析而设计的 GPT‑5 提示进行处理。这些提示会评估诸如冒充风险、品牌滥用或社会工程模式等要素。
  3. 威胁分类:RFT 版本的 o4-mini 会综合先前的确认结果,以生产级一致性分配结构化标签(恶意、良性或模棱两可)。
  4. 最终验证:第二轮 GPT‑5 处理会验证模型的决策,并生成自然语言解释。如果置信度超过阈值,系统将自动启动强制执行。
  5. 人工审核:置信度较低或结果存在冲突的情况会被转交给人工分析员处理。分析员的决策将被记录下来,并反馈回 RFT 循环中,以持续提升模型的一致性。

通过强化微调 (RFT) 训练模型

Doppel 最初的 LLM 增强型检测流程已经取得显著成效,但当同一威胁因分析员不同而可能产生判断差异时,一致性便成为了限制因素。 

软件工程师 Kiran Arimilli 表示:“我们发现,在处理一些边缘案例时,模型给出的答案存在差异。RFT 的一项真正优势在于,它能使模型的决策更加一致。”

为了增强这种一致性,Doppel 运用 RFT 技术,并以自身分析员数据作为反馈来源。每个将域名判定为恶意、良性或模棱两可的决策,都会成为一个分级示例。这些标记的示例用于训练模型,使其能够复现专家判断,即使在处理模棱两可的边缘案例时也是如此。

环形图示展示 Doppel 威胁分类工作流程:生产环境 LLM 做出决策 → 人工审核员提供修正 → 模型训练更新模型 → 部署环节将更新后的模型推送到生产环境。

Doppel 与 OpenAI 的应用工程团队紧密合作,设计了评分器函数,该函数不仅评估准确率,还评估解释质量,对那些推理清晰而非仅仅正确的模型给予奖励。通过将分析员反馈转化为结构化训练数据,Doppel 实证展示了 RFT 如何能够促使自动化检测更加一致且可靠。

以透明化构建可信运维

超参数调优和迭代评估使模型在一致性方面更接近人类水平。但对 Doppel 而言,实现自动化的最后一步还意味着使决策能够立即被理解。 

每次自动下架操作现在都会附带 AI 生成的解释,说明为何移除了该威胁,让客户能够立即了解采取措施的原因——而这一过程过去需要分析员人工介入。 

面板视图显示域名“d0ppel.click”的下架警报,该域名因冒充 Doppel 而被标记。摘要指出存在网络钓鱼和凭据窃取行为,右侧的时间线显示从创建到 2025 年 10 月 10 日完成处理的状态更新。

这种透明化增强了信任感,对 Doppel 用户至关重要。团队不仅能看清执行的操作,更能理解背后的原因,从而更有信心地快速响应,并能在内部或向利益相关方解释这些决策的背景。

将自动化扩展至新威胁层面

在网络钓鱼和冒充域名检测方面几乎实现全面自动化后,Doppel 现在正将同样的模型驱动框架应用于其他高变异性渠道。

Madduluri 表示:“域名或许是我们处理过最棘手的渠道。信号杂乱无章,内容持续变化,威胁同时在多个层面快速演变。如果我们能够实现端到端的自动化,便可将其应用到任何领域:社交媒体、付费广告,甚至更多。”

下一个里程碑包括将 RFT 数据集扩容一个数量级、尝试新的分级策略,以及使用 GPT‑5 进行上游特征提取。这些改进将使 Doppel 能够整合流程阶段,并在更早的环节对更复杂的威胁指标进行分析推理。

通过每一次迭代,Doppel 都在构建一套系统,保护各类平台上的真实信息,守护在信任受到威胁时的安全。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区