目 录CONTENT

文章目录

Doppel 的 AI 防御系统在威胁扩散前阻止攻击

Administrator
2025-10-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://openai.com/index/doppel

原文作者:OpenAI


一个单冒充网站可以在一小时内上线、针对数千名用户,然后消失。这对攻击者来说,足以造成真实的损害。而且有了生成式工具,他们可以轻松创建数百个类似网站。

Doppel 旨在保护组织免受深度伪造和在线冒充的侵害,但很快他们意识到,AI意味着威胁可以无限扩展。攻击者不再需要手工制作骗局;他们可以在几秒钟内生成无限数量的网络钓鱼工具包、欺骗性域名和冒充账户的变体。

“网络钓鱼攻击造成的损害可能在几分钟内发生,因为它们会迅速传播到社交媒体和消息渠道。以几乎零成本生成无限说服力的能力改变了一切。”
Rahul Madduluri, Doppel 联合创始人兼首席技术官

为了保持领先地位,Doppel 开发了一种基于 OpenAI GPT‑5 和 o4-mini 模型构建的新型社会工程防御系统。Doppel 的平台可以自主检测、分类和移除威胁,将分析师的工作量减少了 80%,将威胁处理能力提高了三倍,并将响应时间从数小时缩短到数分钟。


Staying ahead of infinitely faster threats

传统的数字风险防护依赖人工来审查冒充网站、网络钓鱼域名和社交媒体个人资料及帖子。Doppel 看到这种模式正在瓦解,因为攻击者开始自动化,以比人类评估速度更快的速度,跨越更多的攻击面发起威胁。

“我们的系统处理着持续不断的信号洪流,以在噪音中识别真正的威胁。一旦检测到威胁,在造成损害之前只有很短的行动窗口,”Rahul 说道。“使用 AI 自动化决策是该公司最大的突破之一,使我们能够以互联网的规模和速度来对抗攻击。”

这种速度对 Doppel 的客户至关重要,这些组织无法承受等待数小时来确认威胁。Doppel 的系统会自动对大多数威胁进行分类,使用 OpenAI 模型进行推理,并通过一种称为强化微调(RFT)的结构化反馈循环来随着时间的推移改进模型。在 RFT 中,人工反馈被用作分级示例,帮助模型学会独立做出一致的、可解释的决策。


Orchestrating LLM-driven threat detection

Doppel 的 LLM 驱动流程位于其检测堆栈的中心。在信号被获取和过滤后,系统会执行一系列有针对性的推理任务:推理潜在威胁、确认意图以及驱动分类决策。每个阶段的设计都是为了平衡速度、准确性和一致性,同时让分析师专注于需要人工判断的边缘案例

A flowchart shows a pipeline for threat detection using LLMs, moving from sourcing and filtering, through feature extraction and classification, to final verification and takedown systems. Models like GPT-5 and o4-mini are used at key stages.

工作原理如下:

  1. 信号过滤与特征提取: Doppel 的系统每天摄入数百万个域名、URL 和账户。启发式方法和 OpenAI o4-mini 的结合会过滤掉噪音,并提取结构化特征以指导下游的模型评估。
  2. 并行威胁确认: 每个信号都会通过多个专为不同类型威胁分析而构建的 GPT‑5 提示词。这些提示词会评估冒充风险、品牌滥用或社会工程模式等因素。
  3. 威胁分类: RFT 版本的 o4-mini 合成先前的确认,以一致的生产级准确度分配一个结构化标签——恶意、良性或模糊。
  4. 最终验证: 第二次 GPT‑5 运行会验证模型的决策,并生成自然语言的理由说明。如果置信度超过阈值,系统会自动启动执行。
  5. 人工审查: 低置信度或冲突的结果会被路由给人工分析师。他们的决策会被记录并反馈到 RFT 循环中,以持续改进模型的一致性。

Training models through reinforcement fine-tuning (RFT)

Doppel 已经从其最初的 LLM 增强检测流程中看到了显著的收益,但在某些威胁可能根据分析师的不同而被不同判断的情况下,一致性成为了限制因素。

软件工程师 Kiran Arimilli 说:“我们看到边缘案例的答案存在差异。RFT 的一个真正好处是它使模型的决策更加一致。”

为了建立这种一致性,Doppel 使用其自己的分析师数据作为反馈源来应用 RFT。将域名分类为恶意、良性或不明确的每一个决策都成为了一个分级示例。这些带标签的示例训练模型,使其即使在模糊的边缘案例上也能复制专家的判断。

A circular diagram shows the Doppel threat classification workflow: production LLMs make decisions → human reviewers provide corrections → model training updates models → deployment sends updated models to production.

通过与 OpenAI 的应用工程团队紧密合作,Doppel 设计了评分函数,不仅评估准确性,还评估解释质量,奖励那些推理清晰而非仅仅是正确的模型。通过将分析师的反馈转化为结构化训练数据,Doppel 有力地证明了 RFT 如何能使自动化检测更一致可靠


Operationalizing trust through transparency

超参数调整和迭代评估使模型更接近人类级别的一致性。但对于 Doppel 来说,完成自动化最后一步也意味着要让决策立即可以理解

现在,每一次自动移除行动都附带一份 AI 生成的理由说明,解释了为何移除该威胁,让客户能够立即了解采取行动的原因——这曾经需要分析师介入。

A dashboard view shows a takedown alert for the domain “d0ppel.click,” flagged for impersonating Doppel. The summary cites phishing and credential theft, with a timeline on the right showing status updates from creation to resolution on October 10, 2025.

这种可见性增强了信任,这对 Doppel 的用户来说是一个关键因素。看到不仅采取了什么行动,还看到了为什么采取行动,让团队有信心快速响应,并有上下文可以向内部或利益相关者解释这些决策。


Expanding automation to new threat surfaces

在实现了网络钓鱼和冒充域名的近乎完全自动化后,Doppel 正在将同一套模型驱动的框架应用于其他高变异性的渠道。

Madduluri 说:“域名可能是我们处理的最难的渠道。信号很混乱,内容不断变化,威胁在多个表面上快速演变。如果我们能端到端地实现自动化,我们就可以为任何事情做到:社交媒体、付费广告,应有尽有。”

接下来的里程碑包括将 RFT 数据集扩大一个数量级,试验新的评分策略,以及使用 GPT‑5 进行上游特征提取。这些变化将允许 Doppel 在流程早期整合管道阶段并推理更复杂的威胁指标。

通过每一次迭代,Doppel 都在构建一个能够防御在每一个信任受到攻击的表面上的真实事物的系统。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区