1. 安全态势严峻
根据美国联邦调查局(FBI)的《2023年网络犯罪报告》,网络犯罪造成的损失总计125亿美元,比2022年增加了20%(联邦调查局,2023年)。这一上升趋势凸显了网络威胁对金融的影响不断升级
大语言模型(LLMs)在多个领域,包括网络安全,展现出潜力。然而,目前缺乏全面、开放的端到端自动化渗透测试基准,以推动进展并评估这些模型的能力。LLM+Agent可以辅助完成人多复杂的任务,漏洞挖掘也不例外。
大模型融合 Agent 挖掘漏洞方面,基于大语言模型(LLM)构建的 Agent 展现出非凡实力,它被赋予了推理、规划、执行以及存储等一系列关键能力。
2.1PentestGPT
- 架构组成:包括推理、生成和解析三个子模块。推理子模块类似团队领导,获取测试结果或意图并准备测试策略;生成子模块类似初级测试人员,将子任务转换为操作命令;解析子模块充当支持接口,处理自然语言信息,还引入了主动反馈机制。
- 技术原理:从现实世界的人类渗透测试团队中汲取灵感,利用LLMs为每个给定的离散状态启发式生成测试指导,通过特定结构持续对测试过程的状态进行编码并引导后续动作,采用cot策略提高测试准确性。
- 应用效果:相比直接使用GPT-3.5和GPT-4等LLMs,应用PentestGPT架构在子任务完成方面有显著提升,能以类似于人类专家的方式分解渗透测试任务,成功实现总体目标。
2.2 AutoGPT
- 架构组成:基于有限状态机(FSM)原理的渗透测试状态机(PSM),将渗透测试任务分解为扫描、选择、侦查、利用、验证五个独立状态,通过LangChain框架实现,包括漏洞扫描、信息收集、命令生成等模块,支持可视化状态跳转。
- 技术原理:利用FSM对任务流进行严格控制,使状态之间有序跳转,以此提高任务执行效率,降低对模型上下文长度的依赖。
- 应用效果:将任务完成率从传统方法的22%提升至41%,执行效率较传统方法提高96.7%,OpenAI API调用成本减少了71.6%,在简单任务中几乎达到100%成功率,在复杂任务中也表现卓越。
3. 技术原理 — 多维度代码扫描:
- 敏感函数追踪:基于危险函数如eval、exec等进行逆向分析,追踪参数传递的路径,以此来发现可能存在漏洞的代码片段。
- 上下文感知分析:结合抽象语法树(AST)与数据流分析,精确判断用户输入是否可控,从而识别出可能存在的注入等漏洞。
- 智能模糊测试:基于遗传算法或强化学习等人工智能算法改进模糊测试。比如基于著名的模糊测试工具AFL++进行改进,引入长短期记忆网络(LSTM)来预测代码分支热度,生成具有高覆盖率的测试用例,更高效地探索程序的输入空间,发现潜在软件漏洞。
- 动态符号执行:采用集成开源框架的方式实现动态符号执行,如集成Angr和KLEE等知名开源框架构建路径约束求解器,对目标程序进行全面的符号化执行,推导各种可能的执行情况,确定触发漏洞的输入条件。
4. 应用表现
- 安几天鉴漏洞挖掘引擎:安几科技依托DeepSeek大模型结合先进的静态代码分析手段,推出天鉴漏洞挖掘系统。在2025年春节期间成功挖掘出包括CVE-2025–1171、CVE-2025–1170等多个漏洞。NIST SAMATE基准测试结果显示,其误报率仅为2.7%,CWE Top25漏洞检出率高达94.8%,超大型代码库平均扫描耗时仅为4.2小时。
- 万径安全“万径千机”平台:万径安全旗下的网络安全智能体平台“万径千机”接入DeepSeek,完成对DeepSeek — R1和DeepSeek — V3大模型的集成。能够精确定位到潜在的漏洞并提供有效的修复建议,在对金融行业的案例中,成功识别出了多处可能的安全漏洞,并及时给出了相应的修补建议。