AIxCC总览

AIxCC

https://www.darpa.mil/research/programs/ai-cyber

https://aicyberchallenge.com/

ASC 比赛

AFC 比赛

网络系统推理结构

https://github.com/AIxCyberChallenge/example-crs-architecture

每个决赛队伍的获奖视频

https://www.youtube.com/@ctfradiooo

全部获奖的开源项目：

https://archive.aicyberchallenge.com/

团队的路演介绍：

https://aicyberchallenge.com/finalist-teams/

每个团队的优缺点

https://blog.trailofbits.com/2025/08/07/aixcc-finals-tale-of-the-tape/

决赛队伍解析

https://blog.csdn.net/weixin_42016744/article/details/151661395

排名	系统	团队	路线	亮点	缺点	结果
1	Atlantis	Team Atlanta	混合式架构，将传统程序分析、定向模糊测试、语言特化模型和多组件集成结合起来	1.唯一一支使用在 Llama 7B 上使用经过fine-tune的定制模型，并专门针对 C 语言进行大量微调； 2.对不同语言与任务采用不同 PoV生成策略，例如定向模糊测试、LLM 生成定制 mutator、输入字典等； 3.强调多模块集成（ensembling），通过多路分析引擎提升鲁棒性和多样性； 4.在补丁提交上采取保守策略，只在 PoV与补丁形成高置信匹配时提交。	1.系统工程复杂度高，多组件集成、模型微调、定向分析都会提升实现和维护成本； 2.高度依赖系统稳定性与工程质量，任何一个环节失效都可能拖累整体效果； 3.保守补丁策略虽然能保证准确率，但可能错过高风险高收益的机会； 4.专门针对 C 分析优化的策略，在跨语言泛化上未必同样强势； 5.对模型、分析器、编排器之间的协同要求极高，调参成本很大。	总分：392.76 漏洞发现数量：43 成功补丁数量：31
2	Buttercup	Trail of Bits	典型的“传统安全工具 + AI 增强”路线代表	1.以传统模糊测试、静态分析和漏洞研究方法为骨架； 2.利用 LLM 生成高质量 seed input 或 Python 输入生成程序，帮助 fuzzing 更快触达复杂路径； 3.通过 AI 理解复杂输入格式，如 SQL、URL、路径遍历类输入； 4.把 AI 生成的语义化输入纳入 coverage-guided fuzzing 的语料库； 5.对 PoV和补丁进行交叉验证，避免提交低质量结果； 6.补丁策略偏保守，不轻易提交没有 PoV支撑的修复。	1.对 fuzzing 仍然有较强依赖，若目标程序不适合 fuzzing，效果可能受限； 2.LLM 更多承担增强角色，而不是完整推理闭环，因此在某些深层语义漏洞上可能不如 AI-first 路线激进； 3.AI 生成高质量 seed 的效果，仍依赖 prompt、模型能力和目标格式复杂度； 4.保守提交策略提高准确率，但可能牺牲部分进攻性得分； 5.系统整体效率依赖良好的 fuzz harness 和覆盖率反馈，工程门槛不低。	总分：219.35 漏洞发现数量：28 成功补丁数量：19
3	RoboDuck	Theori	“LLM-first”路线	1.以 LLM agent 作为主要推理引擎； 2.让 agent 按照逆向分析工作流推进，但对 agent 行为做强约束，避免“乱跑”； 3.使用静态分析工具（如 Infer）先生成大量 bug candidate； 4.再由 LLM agent 进行语义判断，筛掉误报并聚焦真实漏洞； 5.在 PoV生成上依赖 LLM 的语义理解能力，尤其适合复杂格式输入； 6.AI 生成失败时，再把失败样本转化为 fuzzing seed，形成反馈闭环； 7.在补丁策略上比前两名更激进，甚至允许在没有 PoV的情况下按策略提交补丁。	1.LLM-first 架构天然面临稳定性和可重复性问题； 2.静态分析候选很多，若 LLM 过滤效果不稳定，误报仍可能很高； 3.过于依赖大模型的语义推理能力，对 prompt、上下文构造、模型质量非常敏感； 4.激进补丁策略可能带来准确率惩罚； 5.在复杂仓库级分析中，LLM 成本、上下文窗口、并发调度都可能成为瓶颈。	总分：210.68 漏洞发现数量：34 成功补丁数量：20
4	All You Need IS A Fuzzing Brain	All You Need IS A Fuzzing Brain	“LLM-first”路线	1.LLM 被用作主要推理引擎； 2.系统将 LLM 用于漏洞分析、系统决策和代码生成； 3.Trail of Bits 的文章提到，该队约 `90%` 的 PoV通过 AI reasoning 生成； 4.当 AI 方法失败时，传统 fuzzing 用作 fallback 机制。	1.路线高度依赖 AI 推理； 2.系统仍保留 fuzzing 作为 fallback，说明 AI 路线本身并非完全覆盖所有场景。	总分：153.70 漏洞发现数量：28 成功补丁数量：14
5	ARTIPHISHELL	Shellphish	“传统能力 + AI 增强”的代表，但更强调 fuzzing 侧的强化。	1.以 fuzzing 为核心基础设施； 2.利用名为 `Grammar Guy` 的模块，让 LLM 生成和演化渐进式 grammar； 3.根据覆盖率反馈持续改进 grammar，使其更适合复杂输入格式和协议； 4.通过 AI 解决传统变异式 fuzzing 对复杂结构化输入不够敏感的问题； 5.在补丁策略上偏保守，不提交无 PoV支撑的补丁。	1.仍较依赖 fuzzing 主线，对深层逻辑漏洞未必总有优势； 2.Grammar 生成虽强，但会消耗大量 LLM 预算； 3.对复杂 grammar 的演化过程可能较慢，且质量波动受模型输出影响； 4.补丁策略较保守，得分上可能不如更激进的队伍； 5.把 CTF 经验迁移到大规模真实代码库时，仍需要额外工程打磨。	总分：135.89 漏洞发现数量：28 成功补丁数量：11
6	BugBuster	42-b3yond-6ug	“混合路线 + LLM 驱动补丁创新”	1.以集成工具链形式运行，LLM agent 负责检测、分析和修复； 2.保留传统 fuzzing 作为 PoV生成核心； 3.结合静态分析报告与 SARIF 机制做验证； 4.采用多 fuzzer协同和强化学习调度； 5.其最有代表性的技术是“super patches”，即一个补丁同时修复多个看似无关的漏洞； 6.系统能够识别多个 crash 背后的共同根因，并尝试一次性修补。	1.“super patch” 很有想象力，但风险也高，修复范围越大，越容易引入副作用； 2.一次修多个漏洞，对根因分析准确性要求极高； 3.多工具链协同会提升系统复杂度和维护难度； 4.强化学习调度、多 fuzzer编排等能力虽然先进，但也增加工程调试成本； 5.如果补丁过于泛化，可能影响程序原有行为，导致功能正确性问题。	总分：105.03 漏洞发现数量：41 成功补丁数量：3

Report

#AIXCC

AIxCC总览

https://jimi-lab.github.io/2026/01/01/AIxCC总览/

作者

Jimi

发布于

2026年1月1日

许可协议

Anthropic Agent Skills 上一篇

AIXCC-ButterCup项目详解下一篇