AI 代理供應鏈風險

資料來源#

Zero Trust for AI Agents

摘要#

與靜態軟體供應鏈不同，agent 生態系會在執行期動態組合能力——動態載入外部工具與 agent 人設——因而將攻擊面擴大到傳統軟體組成分析無法涵蓋的範圍。雪上加霜的是，前沿模型非常擅長辨識未修補上游元件中已知、且已有修補的漏洞特徵（這是 LLM 驅動的漏洞研究的防禦面鏡像，也是 AI 加速的攻擊的直接後果）。Zero Trust for AI Agents 的 Phase 2 專門用於管理這類風險。

三層供應鏈暴露#

模型供應鏈#

遭投毒的權重與遭入侵的微調資料會引入在部署後仍持續存在的後門。該框架引用 Anthropic 的研究指出，僅注入 250 份惡意文件即可對 600M 至 13B 參數的 LLM 植入後門，且這些後門會在包含監督微調與 RLHF 的安全訓練之後仍然存在。 這是 Synthetic Document Finetuning (SDF) 的對手方鏡像：與用以安裝對齊信念的中期訓練介入相同機制，也能安裝惡意信念——而文件數量之少意味著門檻很低。安全研究人員亦在主要平台上發現約 100 個惡意 AI 模型，其中包含載入時會開啟反向 shell 的模型。

工具／框架供應鏈#

影響 MCP 伺服器、API 整合與 agent 框架（MCP and Computer Use）：

PyTorch dependency-confusion 攻擊——惡意套件在安裝期間外洩 SSH 金鑰。
首個有文件記載的野外惡意 MCP 伺服器——冒充合法電子郵件服務，並暗中複製所有寄出郵件（一種「rug pull」：合法工具被替換為惡意版本）。這是先前在 MCP and Computer Use 中提出的 MCP 安全開放問題的具體答案。
tool poisoning——遭入侵的 MCP 描述符／schema／中繼資料，隱藏可在使用者不知情下外洩資料的指令。

開源相依性健康度#

多數軟體供應鏈以開源為主，且大多沒有 SLA。該框架的緩解工具包：

OpenSSF Scorecard——自動為每個相依性評分（分支保護、模糊測試、簽署發布、維護者活動）；在 CI 中執行；標記無人維護的套件。
AI-BOM——OWASP 對 CycloneDX ML-BOM 的擴充，追蹤模型出處、資料集譜系、微調參數；與 Scorecard 一併串接，使模型與程式碼相依性承載相同的風險訊號。
dependency-tree audit——讓前沿模型檢視 lockfile，找出冗餘函式庫（多個 HTTP 客戶端、多個 JSON 解析器）——約一小時的練習，可浮現值得整合的項目。
reachability analysis——僅修補實際可達的脆弱程式碼；搭配 CI 迴歸測試以快速、自信地修補。
AI vendoring——對於規模小、評分低、無人維護的相依性，讓前沿模型重新實作你實際使用的那一部分子集。 框架將此定位為標準應對，而非罕見變通——值得注意的立場。

緩解姿態#

在每個階段進行密碼學簽章（不只在部署時——執行期也要驗證）；供應商評估應明確詢問供應商如何為 AI 加速的利用時程做準備；並強烈建議在驗證程式碼並自行簽署之後，於不可變平台上執行／代管你自己的 MCP 伺服器。 對於未在本機執行模型者，ISO 42001 被引用為供應商信任的訊號。

開放問題#

將「AI vendoring」視為標準應對，顛覆了數十年「不要重造輪子」的共識。由模型重新實作的相依性本身如何驗證與維護——風險是否只是換了位置？
250 份文件的後門會在 SFT/RLHF 之後仍然存在。對於你未親自訓練、可能已遭投毒的模型，除了行為紅隊之外，還有哪些偵測手段？

資料來源#

Zero Trust for AI Agents ——Part II 供應鏈威脅；Part IV Phase 2（AI-BOM、Scorecard、vendoring、簽章、供應商評估）

AI 代理供應鏈風險

資料來源#

摘要#

三層供應鏈暴露#

模型供應鏈#

工具／框架供應鏈#

開源相依性健康度#

緩解姿態#

相關連結#

開放問題#

資料來源#