开源 · 永久免费

AI 红队 学院

掌握 AI 安全。破解 AI 系统。保护重要的东西。

一门免费的开源课程,涵盖 AI 系统的攻击性安全测试 — 从 Prompt Injection 到供应链攻击。60+ 小时的内容,包含实践 Docker 实验室。

8 模块
60+ 小时
8 Docker 实验室
100% 免费

您将学到什么

一套全面的实践课程,涵盖 AI 系统的攻击性安全测试 — LLM、RAG 管道、多智能体系统和 AI 基础设施。每个模块都包含基于 Docker 的实验室环境。

先决条件

  • 对机器学习概念的基本理解
  • 熟悉 Python 编程
  • 命令行/终端经验
  • Docker 基础知识(开始前安装 Docker Desktop)
  • 对 AI 系统如何被利用的好奇心

这是为谁准备的

  • 扩展到 AI/ML 的安全专业人员
  • 想要构建更安全系统的 AI/ML 工程师
  • 渗透测试人员将 AI 目标添加到其技能集中
  • 研究对抗性机器学习的研究人员
  • 任何对 AI 安全和保护充满热情的人

8 个模块,60+ 小时,全程实操

每个模块都包含详细的主题、实践 Docker 实验室和精选参考资源。单击任何模块以展开其完整内容。

涵盖主题

  • 什么是 AI 红队以及为什么重要
  • 传统红队 vs AI 红队:关键区别
  • AI 攻击面:模型、API、训练数据、输出、基础设施
  • MITRE ATLAS 框架:14 种战术、66 种 AI 对手行为技术
  • NVIDIA AI 杀伤链:侦察 → 投毒 → 劫持 → 持久化 → 影响
  • OWASP LLM 应用程序 Top 10(2025 版)
  • NIST AI 100-2:对抗性 ML 分类法
  • AI 系统的威胁建模
  • AI 红队中的法律和伦理考虑
  • 设置你的 AI 红队实验室环境

实验室 1:设置你的 AI 红队实验室

部署完整的 AI 红队环境,包含本地 LLM(Ollama)、向量数据库和测试工具。包含一个易受攻击的聊天机器人应用程序作为你的第一个目标。

  • 使用本地 LLM (Mistral 7B 或 Llama 3) 部署 Ollama
  • 设置 ChromaDB 向量数据库
  • 部署易受攻击的 AI 聊天机器人应用程序
  • 安装并配置 garak、PyRIT 和 promptfoo
  • 使用 garak 运行你的第一次自动漏洞扫描
  • 使用 MITRE ATLAS 分类法记录发现
下载实验室

涵盖主题

  • 直接 Prompt Injection:覆盖系统提示
  • 间接 Prompt Injection:投毒外部上下文
  • 越狱技术:DAN、角色扮演、上下文操纵
  • 基于编码的攻击:Base64、ROT13、莫尔斯码、Leetspeak、Unicode
  • 多轮攻击:Crescendo 和上下文累积
  • 策略傀儡和指令层次结构利用
  • 令牌级攻击和对抗后缀
  • 使用进化算法的自动化 Prompt Injection
  • 测量攻击成功率 (ASR)
  • 绕过护栏:字符注入、AML 规避方法
  • 测试护栏产品:Azure Prompt Shield、Meta Prompt Guard、NeMo
  • 防御分析:什么有效,什么无效

实验室 2:Prompt Injection 游乐场

攻击一系列逐渐加固的聊天机器人。从未受保护的模型开始,通过受保护的系统进行,并学习系统地发现绕过方法。

  • 对未受保护的聊天机器人执行直接 Prompt Injection
  • 从"安全"应用程序提取系统提示
  • 使用编码技术绕过内容过滤器 (Base64、Unicode 相似字符)
  • 执行多轮 Crescendo 攻击
  • 使用 garak 自动化越狱发现
  • 测试并绕过基于 DeBERTa 的 Prompt Injection 分类器
  • 实现进化提示生成以找到新的绕过方法
  • 计算并报告不同攻击策略的 ASR
下载实验室

涵盖主题

  • RAG 架构深入探讨:摄取、嵌入、检索、生成
  • RAG 攻击面:每个组件都是目标
  • 知识库投毒:注入恶意文档
  • 通过检索上下文的间接 Prompt Injection
  • HijackRAG:操纵检索机制(黑盒和白盒)
  • 向量数据库安全:3000+ 个暴露数据库问题
  • 嵌入反演攻击:从向量重建源数据
  • 向量数据库中的数据投毒
  • 成员和属性推断攻击
  • 语义欺骗:欺骗相似性搜索
  • 跨上下文信息冲突
  • RAG 凭证收集 (MITRE ATLAS 技术)
  • 编排层利用:LangChain、LlamaIndex 漏洞
  • CVE-2025-27135:RAGFlow SQL 注入案例研究
  • Microsoft 365 Copilot 利用链:Prompt Injection + ASCII 走私

实验室 3:破坏 RAG 系统

构建然后系统地破坏 RAG 应用程序。投毒其知识库、劫持检索、执行嵌入反演并通过 LLM 泄露数据。

  • 使用 ChromaDB 和 LangChain 部署易受攻击的 RAG 应用程序
  • 用恶意文档投毒知识库
  • 通过投毒的检索上下文执行间接 Prompt Injection
  • 执行嵌入反演以从向量恢复源文本
  • 演示对向量数据库的成员推断
  • 利用语义欺骗操纵搜索结果
  • 链接 RAG 投毒与通过 LLM 输出的数据泄露
  • 测试未经身份验证的向量数据库访问
  • 识别并利用编排框架漏洞
下载实验室

涵盖主题

  • 多智能体 AI 架构:智能体如何通信和协调
  • 智能体之间的信任关系及其利用
  • 通信干扰和对智能体的中间人攻击
  • 拜占庭攻击和智能体冒充
  • 新兴利用:用于集体操纵的 M-Spoiler 框架
  • 跨多智能体系统的越狱传播
  • 通过智能体工具使用进行远程代码执行 (RCE)
  • 对智能体长期内存的内存操纵攻击
  • 智能体对话中的线程注入
  • 权限过度的智能体操作和权限提升
  • 用于持久后门的智能体配置修改
  • 激活触发器发现和利用
  • AI 智能体工具调用进行未授权操作
  • 用于智能体交互的零信任架构
  • MITRE ATLAS 2025:14 种新的智能体特定攻击技术

实验室 4:破坏多智能体系统

攻击多智能体客户服务系统,其中智能体协作处理请求。破坏一个智能体以影响其他智能体、提升权限并通过工具调用泄露数据。

  • 映射多智能体系统架构和信任关系
  • 通过 Prompt Injection 执行智能体冒充
  • 演示从一个智能体到另一个智能体的越狱传播
  • 操纵智能体内存以创建持久后门
  • 利用智能体工具访问执行未授权操作
  • 通过智能体工具调用执行数据泄露
  • 发现和利用激活触发器
  • 测试智能体间通信完整性
  • 实现并测试零信任防御
下载实验室

涵盖主题

  • AI 供应链:模型、数据集、框架、依赖项
  • 模型投毒:后门、睡眠智能体和特洛伊木马模型
  • 恶意模型序列化:pickle 利用和代码执行
  • 模型注册表上的域名抢注 (openai-official, chatgpt-api, tensorfllow)
  • 训练数据投毒:医疗 LLM 案例研究($5 即可投毒)
  • 后门触发器和睡眠智能体模型(Anthropic 研究)
  • 微调攻击:通过适应破坏模型行为
  • 框架漏洞:LangChain、LlamaIndex、Haystack 利用
  • AI 管道中的 API 密钥泄露和凭证泄漏
  • ML 部署的容器和基础设施安全
  • 通过蒸馏和提取攻击进行模型盗窃
  • AI 的 SBOM:软件和 ML 物料清单
  • 供应链攻击案例研究:3CX、NullBulge/Hugging Face
  • 检测和防止模型投毒
  • 安全模型来源和完整性验证

实验室 5:AI 供应链攻击模拟

模拟对 ML 管道的供应链攻击。创建后门模型、利用 pickle 反序列化、演示域名抢注并投毒训练数据以破坏模型行为。

  • 创建具有隐藏后门触发器的模型
  • 演示用于代码执行的恶意 pickle 反序列化
  • 模拟对模型注册表的域名抢注攻击
  • 投毒训练数据以引入有针对性的误分类
  • 利用 ML 管道中的不安全 API 密钥存储
  • 通过 API 查询执行模型提取
  • 分析模型是否存在投毒或后门迹象
  • 生成并验证 ML-SBOM
  • 实现模型完整性验证检查
下载实验室

涵盖主题

  • 模型提取基础知识:通过 API 访问克隆模型
  • 基于查询的模型盗窃:策略和优化
  • 从语言模型提取训练数据
  • 成员推断:这些数据是否在训练集中?
  • 从模型输出进行属性推断
  • 对 LLM 的侧信道攻击:Whisper Leak 流量分析
  • 用于响应重建的令牌长度侧信道
  • 对高效推理的时序攻击(推测解码)
  • 缓存共享时序攻击 (InputSnatch)
  • TPUXtract:提取神经网络超参数
  • 模型反演:从输出重建输入
  • 知识产权盗窃影响
  • 防御:速率限制、输出扰动、水印
  • 用于提取尝试的 API 监控
  • 差分隐私作为缓解措施

实验室 6:模型盗窃与隐私攻击

通过战略性 API 查询提取专有模型的行为。执行成员推断、尝试训练数据提取并分析加密流量以查找信息泄露。

  • 通过系统的 API 查询克隆目标模型的行为
  • 训练与目标预测匹配的代理模型
  • 执行成员推断以识别训练数据
  • 从 LLM 提取记忆的训练数据
  • 分析加密的 LLM 流量进行主题分类(Whisper Leak)
  • 演示简单分类器上的模型反演
  • 实现并测试速率限制防御
  • 评估输出扰动作为防御机制
  • 生成提取检测报告
下载实验室

涵盖主题

  • 为什么手动测试还不够:自动化的必要性
  • garak 深入探讨:生成器、探针、检测器和分析器
  • PyRIT 架构:数据集、编排器、转换器、评分
  • Promptfoo:声明式红队配置和 CI/CD 集成
  • 设计攻击数据集和种子提示
  • 攻击策略选择和配置
  • 自动评分和评估模型响应
  • 多轮攻击编排
  • 转换器链:编码、混淆和规避
  • AI 安全基准测试:CVE Bench 和评估框架
  • CI/CD 集成:在部署管道中进行红队测试
  • 生成可操作的安全报告
  • 用于特定领域测试的自定义探针开发
  • 比较和组合多个工具
  • 构建持续的 AI 安全测试计划

实验室 7:自动化红队管道

使用 garak、PyRIT 和 promptfoo 构建并运行自动化 AI 红队管道。测试多个模型、生成综合报告,并将安全测试集成到 CI/CD 工作流中。

  • 使用多种探针类型配置并运行 garak 对本地 LLM
  • 使用自定义数据集和转换器构建 PyRIT 编排器
  • 使用多个攻击向量创建 promptfoo 红队配置
  • 比较不同模型的漏洞结果
  • 使用 PyRIT 实现多轮攻击自动化
  • 为特定领域测试构建自定义 garak 探针
  • 使用 promptfoo 设置 CI/CD 集成
  • 生成并分析综合安全评估报告
  • 创建仪表板以跟踪 AI 安全态势
下载实验室

涵盖主题

  • 从漏洞到影响:像业务对手一样思考
  • 构建 AI 利用链:结合多个弱点
  • 通过 AI 系统的数据泄露
  • 通过 AI 智能体工具滥用进行权限提升
  • 通过 AI 基础设施的横向移动
  • AI 系统中的持久化机制
  • 影响类别:机密性、完整性、可用性、安全性
  • AI 漏洞的业务影响量化
  • AI 事件响应:检测、遏制、恢复
  • 编写有效的 AI 红队报告
  • 针对 AI 漏洞调整的 CVSS 评分
  • AI 的补救策略和深度防御
  • 向技术和非技术利益相关者传达发现
  • 构建 AI 安全改进路线图
  • 持续监控和重新测试

实验室 8:完整的 AI 红队参与

对现实的 AI 驱动企业应用程序进行完整的 AI 红队参与。执行侦察、链接多个利用、演示业务影响并交付专业报告。

  • 对目标 AI 应用程序执行全面侦察
  • 识别并记录所有攻击面
  • 链接 Prompt Injection + RAG 投毒 + 数据泄露
  • 演示通过智能体工具滥用进行权限提升
  • 在 AI 系统中建立持久性
  • 量化发现的漏洞的业务影响
  • 使用 CVSS 分数编写专业的 AI 红队报告
  • 按风险优先级呈现补救建议
  • 制定 30/60/90 天安全改进计划
下载实验室

开源工具库

整个课程中使用的三个行业领先工具,用于自动化 AI 漏洞发现和红队。

gk

garak

由 NVIDIA 开发

LLM 漏洞扫描器,包含 12 个类别中的 47+ 个探针。自动检测 Prompt Injection、数据泄露、毒性、幻觉等。

Py

PyRIT

由 Microsoft 开发

用于生成式 AI 的 Python 风险识别工具。多轮攻击编排、用于规避的转换器链、自动评分和综合报告。

pf

promptfoo

开源

LLM 红队和评估框架。声明式 YAML 配置、CI/CD 集成、跨模型的比较测试和自动漏洞报告。

3 条命令完成设置

每个实验室都通过 Docker 在本地运行。克隆存储库、选择实验室并开始破解。

终端
# 下载并解压实验室
curl -LO airt-labs.zip
unzip airt-labs.zip -d airt-labs
cd airt-labs

# 启动任意实验室(例如实验室 01 - 基础)
cd lab01-foundations
docker-compose up

# 访问实验室界面
open http://localhost:8888

# 使用 garak 运行漏洞扫描
garak --model_type ollama --model_name llama3 --probes all

# 启动 PyRIT 编排器
python -m pyrit.orchestrator --config config.yaml

社区驱动的 AI 安全教育

AI 红队学院是一个免费的开源教育资源,旨在使 AI 安全知识民主化。我们相信理解攻击性技术对于构建强大的 AI 防御至关重要。

本课程涵盖与商业 AI 红队认证类似的内容 — 但对所有人完全免费开放。无论你是经验丰富的渗透测试人员、AI 研究人员还是对安全感兴趣的开发人员,AIRT 都能提供你所需的实践经验。

为安全专业人员、研究人员和任何对 AI 安全充满热情的人构建。所有实验室都通过 Docker 在本地运行,不需要云 API 密钥或外部服务。你的测试环境完全在你的控制下。

课程涵盖 8 个模块中的 60-80 小时内容,从基础概念到完整的红队参与。每个模块都包括理论和带有真实攻击模拟的实践 Docker 实验室。