AIRT — AI 红队学院 | 免费 AI 安全课程

涵盖主题

什么是 AI 红队以及为什么重要
传统红队 vs AI 红队：关键区别
AI 攻击面：模型、API、训练数据、输出、基础设施
MITRE ATLAS 框架：14 种战术、66 种 AI 对手行为技术
NVIDIA AI 杀伤链：侦察 → 投毒 → 劫持 → 持久化 → 影响
OWASP LLM 应用程序 Top 10（2025 版）
NIST AI 100-2：对抗性 ML 分类法
AI 系统的威胁建模
AI 红队中的法律和伦理考虑
设置你的 AI 红队实验室环境

部署完整的 AI 红队环境，包含本地 LLM（Ollama）、向量数据库和测试工具。包含一个易受攻击的聊天机器人应用程序作为你的第一个目标。

使用本地 LLM (Mistral 7B 或 Llama 3) 部署 Ollama
设置 ChromaDB 向量数据库
部署易受攻击的 AI 聊天机器人应用程序
安装并配置 garak、PyRIT 和 promptfoo
使用 garak 运行你的第一次自动漏洞扫描
使用 MITRE ATLAS 分类法记录发现

下载实验室

参考资料

涵盖主题

直接 Prompt Injection：覆盖系统提示
间接 Prompt Injection：投毒外部上下文
越狱技术：DAN、角色扮演、上下文操纵
基于编码的攻击：Base64、ROT13、莫尔斯码、Leetspeak、Unicode
多轮攻击：Crescendo 和上下文累积
策略傀儡和指令层次结构利用
令牌级攻击和对抗后缀
使用进化算法的自动化 Prompt Injection
测量攻击成功率 (ASR)
绕过护栏：字符注入、AML 规避方法
测试护栏产品：Azure Prompt Shield、Meta Prompt Guard、NeMo
防御分析：什么有效，什么无效

攻击一系列逐渐加固的聊天机器人。从未受保护的模型开始，通过受保护的系统进行，并学习系统地发现绕过方法。

对未受保护的聊天机器人执行直接 Prompt Injection
从"安全"应用程序提取系统提示
使用编码技术绕过内容过滤器 (Base64、Unicode 相似字符)
执行多轮 Crescendo 攻击
使用 garak 自动化越狱发现
测试并绕过基于 DeBERTa 的 Prompt Injection 分类器
实现进化提示生成以找到新的绕过方法
计算并报告不同攻击策略的 ASR

下载实验室

参考资料

涵盖主题

RAG 架构深入探讨：摄取、嵌入、检索、生成
RAG 攻击面：每个组件都是目标
知识库投毒：注入恶意文档
通过检索上下文的间接 Prompt Injection
HijackRAG：操纵检索机制（黑盒和白盒）
向量数据库安全：3000+ 个暴露数据库问题
嵌入反演攻击：从向量重建源数据
向量数据库中的数据投毒
成员和属性推断攻击
语义欺骗：欺骗相似性搜索
跨上下文信息冲突
RAG 凭证收集 (MITRE ATLAS 技术)
编排层利用：LangChain、LlamaIndex 漏洞
CVE-2025-27135：RAGFlow SQL 注入案例研究
Microsoft 365 Copilot 利用链：Prompt Injection + ASCII 走私

构建然后系统地破坏 RAG 应用程序。投毒其知识库、劫持检索、执行嵌入反演并通过 LLM 泄露数据。

使用 ChromaDB 和 LangChain 部署易受攻击的 RAG 应用程序
用恶意文档投毒知识库
通过投毒的检索上下文执行间接 Prompt Injection
执行嵌入反演以从向量恢复源文本
演示对向量数据库的成员推断
利用语义欺骗操纵搜索结果
链接 RAG 投毒与通过 LLM 输出的数据泄露
测试未经身份验证的向量数据库访问
识别并利用编排框架漏洞

下载实验室

参考资料

涵盖主题

多智能体 AI 架构：智能体如何通信和协调
智能体之间的信任关系及其利用
通信干扰和对智能体的中间人攻击
拜占庭攻击和智能体冒充
新兴利用：用于集体操纵的 M-Spoiler 框架
跨多智能体系统的越狱传播
通过智能体工具使用进行远程代码执行 (RCE)
对智能体长期内存的内存操纵攻击
智能体对话中的线程注入
权限过度的智能体操作和权限提升
用于持久后门的智能体配置修改
激活触发器发现和利用
AI 智能体工具调用进行未授权操作
用于智能体交互的零信任架构
MITRE ATLAS 2025：14 种新的智能体特定攻击技术

攻击多智能体客户服务系统，其中智能体协作处理请求。破坏一个智能体以影响其他智能体、提升权限并通过工具调用泄露数据。

映射多智能体系统架构和信任关系
通过 Prompt Injection 执行智能体冒充
演示从一个智能体到另一个智能体的越狱传播
操纵智能体内存以创建持久后门
利用智能体工具访问执行未授权操作
通过智能体工具调用执行数据泄露
发现和利用激活触发器
测试智能体间通信完整性
实现并测试零信任防御

下载实验室

参考资料

涵盖主题

AI 供应链：模型、数据集、框架、依赖项
模型投毒：后门、睡眠智能体和特洛伊木马模型
恶意模型序列化：pickle 利用和代码执行
模型注册表上的域名抢注 (openai-official, chatgpt-api, tensorfllow)
训练数据投毒：医疗 LLM 案例研究（$5 即可投毒）
后门触发器和睡眠智能体模型（Anthropic 研究）
微调攻击：通过适应破坏模型行为
框架漏洞：LangChain、LlamaIndex、Haystack 利用
AI 管道中的 API 密钥泄露和凭证泄漏
ML 部署的容器和基础设施安全
通过蒸馏和提取攻击进行模型盗窃
AI 的 SBOM：软件和 ML 物料清单
供应链攻击案例研究：3CX、NullBulge/Hugging Face
检测和防止模型投毒
安全模型来源和完整性验证

模拟对 ML 管道的供应链攻击。创建后门模型、利用 pickle 反序列化、演示域名抢注并投毒训练数据以破坏模型行为。

创建具有隐藏后门触发器的模型
演示用于代码执行的恶意 pickle 反序列化
模拟对模型注册表的域名抢注攻击
投毒训练数据以引入有针对性的误分类
利用 ML 管道中的不安全 API 密钥存储
通过 API 查询执行模型提取
分析模型是否存在投毒或后门迹象
生成并验证 ML-SBOM
实现模型完整性验证检查

下载实验室

参考资料

涵盖主题

模型提取基础知识：通过 API 访问克隆模型
基于查询的模型盗窃：策略和优化
从语言模型提取训练数据
成员推断：这些数据是否在训练集中？
从模型输出进行属性推断
对 LLM 的侧信道攻击：Whisper Leak 流量分析
用于响应重建的令牌长度侧信道
对高效推理的时序攻击（推测解码）
缓存共享时序攻击 (InputSnatch)
TPUXtract：提取神经网络超参数
模型反演：从输出重建输入
知识产权盗窃影响
防御：速率限制、输出扰动、水印
用于提取尝试的 API 监控
差分隐私作为缓解措施

通过战略性 API 查询提取专有模型的行为。执行成员推断、尝试训练数据提取并分析加密流量以查找信息泄露。

通过系统的 API 查询克隆目标模型的行为
训练与目标预测匹配的代理模型
执行成员推断以识别训练数据
从 LLM 提取记忆的训练数据
分析加密的 LLM 流量进行主题分类（Whisper Leak）
演示简单分类器上的模型反演
实现并测试速率限制防御
评估输出扰动作为防御机制
生成提取检测报告

下载实验室

参考资料

涵盖主题

为什么手动测试还不够：自动化的必要性
garak 深入探讨：生成器、探针、检测器和分析器
PyRIT 架构：数据集、编排器、转换器、评分
Promptfoo：声明式红队配置和 CI/CD 集成
设计攻击数据集和种子提示
攻击策略选择和配置
自动评分和评估模型响应
多轮攻击编排
转换器链：编码、混淆和规避
AI 安全基准测试：CVE Bench 和评估框架
CI/CD 集成：在部署管道中进行红队测试
生成可操作的安全报告
用于特定领域测试的自定义探针开发
比较和组合多个工具
构建持续的 AI 安全测试计划

使用 garak、PyRIT 和 promptfoo 构建并运行自动化 AI 红队管道。测试多个模型、生成综合报告，并将安全测试集成到 CI/CD 工作流中。

使用多种探针类型配置并运行 garak 对本地 LLM
使用自定义数据集和转换器构建 PyRIT 编排器
使用多个攻击向量创建 promptfoo 红队配置
比较不同模型的漏洞结果
使用 PyRIT 实现多轮攻击自动化
为特定领域测试构建自定义 garak 探针
使用 promptfoo 设置 CI/CD 集成
生成并分析综合安全评估报告
创建仪表板以跟踪 AI 安全态势

下载实验室

参考资料

涵盖主题

从漏洞到影响：像业务对手一样思考
构建 AI 利用链：结合多个弱点
通过 AI 系统的数据泄露
通过 AI 智能体工具滥用进行权限提升
通过 AI 基础设施的横向移动
AI 系统中的持久化机制
影响类别：机密性、完整性、可用性、安全性
AI 漏洞的业务影响量化
AI 事件响应：检测、遏制、恢复
编写有效的 AI 红队报告
针对 AI 漏洞调整的 CVSS 评分
AI 的补救策略和深度防御
向技术和非技术利益相关者传达发现
构建 AI 安全改进路线图
持续监控和重新测试

对现实的 AI 驱动企业应用程序进行完整的 AI 红队参与。执行侦察、链接多个利用、演示业务影响并交付专业报告。

对目标 AI 应用程序执行全面侦察
识别并记录所有攻击面
链接 Prompt Injection + RAG 投毒 + 数据泄露
演示通过智能体工具滥用进行权限提升
在 AI 系统中建立持久性
量化发现的漏洞的业务影响
使用 CVSS 分数编写专业的 AI 红队报告
按风险优先级呈现补救建议
制定 30/60/90 天安全改进计划

下载实验室

AI 红队 学院

您将学到什么

先决条件

这是为谁准备的

8 个模块，60+ 小时，全程实操

AI 红队基础

涵盖主题

实验室 1：设置你的 AI 红队实验室

参考资料

Prompt Injection 攻击

涵盖主题

实验室 2：Prompt Injection 游乐场

参考资料

RAG 利用与向量数据库攻击

涵盖主题

实验室 3：破坏 RAG 系统

参考资料

多智能体系统利用

涵盖主题

实验室 4：破坏多智能体系统

参考资料

AI 供应链与基础设施攻击

涵盖主题

实验室 5：AI 供应链攻击模拟

参考资料

模型提取与推理攻击

涵盖主题

实验室 6：模型盗窃与隐私攻击

参考资料

大规模自动化 AI 红队

涵盖主题

实验室 7：自动化红队管道

参考资料

后渗透与影响分析

涵盖主题

实验室 8：完整的 AI 红队参与

参考资料

开源工具库

garak

PyRIT

promptfoo

参考框架

3 条命令完成设置

社区驱动的 AI 安全教育

AI 红队学院