系统提示泄露汇编：多平台系统指令集合与示例

为研究者与提示工程师提供可浏览的公开聊天机器人系统提示集合，便于比较与分析；但因未声明许可且可能含敏感来源文本，使用前需评估法律与隐私风险与维护可持续性。

GitHub asgeirtj/system_prompts_leaks 更新 2025-08-28 分支 main 星标 18.3K 分叉 3.0K

JavaScript 系统提示集合提示工程/对比分析安全与合规评估

💡 深度解析

为什么项目采用 Git + Markdown 的架构？这种技术选型有哪些优势与局限？

核心分析 ¶

为何选择 Git+Markdown：该架构为项目带来可审计性、去中心化协作与工具链兼容的直接好处。研究者可以通过 git diff 看演变、通过 PR 贡献新样本，并用 Markdown 保持可读性。

技术特点与优势 ¶

优势1 — 可审计/版本化：Git 的提交历史提供溯源能力，便于追踪 prompt 如何演变。
优势2 — 低集成成本：Markdown/文本能被任何编程语言或 CI 工具读取与索引。
优势3 — 去中心化与可离线使用：无需运行服务，任何人可 Fork 或克隆进行本地分析。

局限与风险 ¶

缺乏结构化元数据：没有强制字段（来源、时间戳、可信度评分），影响可复现性。
合规与许可证不明确：使用受限且存在法律风险。
检索与扩展性：当样本量大时，纯文本目录索引与搜索效率低于数据库方案。

实用建议 ¶

补全元数据层：在本地或派生仓库中为每条 prompt 添加 source, date, evidence_url 等字段（例如 JSON/YAML 并与 Markdown 共存）。
构建验证流程：为重要样本保留原始证据截图或链接，并在 PR 审核中要求来源标注。
考虑混合架构：若需高效检索或企业级审计，可将文本仓库作为原始层，再同步到带索引的数据库或数据湖。

重要提示：Git+Markdown 是轻量而透明的选择，但不等同于“权威”或“已验证”的数据发布方式。

总结：该选型非常适合研究与快速共享，但对于严谨审计或规模化检索需进行结构化与合规增强。

85.0%

作为安全研究员，如何在实际工作中高效使用该仓库进行 prompt-injection 或对抗性测试？

核心分析 ¶

问题核心：将仓库内的 system prompts 用于 prompt-injection 或对抗测试时，直接使用原始文本存在来源不明、上下文缺失与可复现性不足的风险。要把它变成高质量测试数据，需要系统化处理。

技术分析 ¶

样本可获取性强：Markdown 文本易读、易提取为测试向量。
可自动化：可用脚本将目录批量转换为用例并注入到测试框架中（如 pytest + 自定义 LLM 模拟器）。
验证缺失：缺少时间戳、来源 URL 与可信度评级，影响测试结论的可靠性。

实用建议（具体步骤）¶

采样与分组：按厂商/模型/用途（如安全、过滤、助手策略）标注并抽样。
来源验证：为每个样本在本地记录 evidence.md（截图、发布日期、PR 作者），并在测试报告中引用。
标准化：将 Markdown 转换为 JSON 测试用例格式，字段示例：{id, vendor, model, system_prompt, source_url, collected_date, confidence}。
构建注入场景：把 system prompt 作为目标上下文，设计攻击向量（prompt-injection payloads）并迭代测试。
记录与可复现：在 CI 中保留 git commit id、测试脚本和结果，以便同行复现。

重要提示：注意法律与伦理边界；避免在未经授权的生产系统上直接执行攻击性测试。

总结：该仓库是一个便捷的原始样本池；要用于严谨的安全研究，必须补充来源验证、结构化流程与可复现的测试链路。

85.0%

在什么场景下该项目最适合使用？有哪些明显的限制或不适用场景？

核心分析 ¶

适用场景：该仓库的形式与内容决定了它在以下场景中最有价值：

学术研究与论文复现：提供真实文本样本，便于行为分析与跨模型对比。
安全与红队准备：作为 prompt-injection 测试输入与基线样本来源。
工程集成参考：工程师可用作兼容性研究或模拟第三方 system 指令的参考。

明显限制与不适用场景 ¶

不作为官方或权威配置：仓库并非厂商发布，不能作为最终的系统配置依据。
法律与伦理风险：泄露或复制的 prompt 可能触及厂商条款或隐私/版权问题。
可复现性与审计困难：缺少正式时间戳、来源证明和许可证，限制在合规审计场景中的使用。
维护性问题：无 release，更新取决于社区 PR，可能过时或不完整。

实用建议 ¶

把它当作原始素材库：用于构建测试套件与初步分析，而非最终证据。
为合规应用建立二次验证：在将样本用于审计或报告前，补充来源证明与法律审查。
替代方案：需要权威或高可用性时，优先寻求厂商文档、官方 API 文档或受控数据集。

重要提示：将该仓库作为研究辅助工具，而不是用于生产配置的直接来源。

总结：适合研究、测试与工程参考；对于合规、权威或生产用途需谨慎并补强验证流程。

85.0%

如何补强该仓库以满足企业级审计或合规需求？需要哪些技术与流程改进？

核心分析 ¶

问题核心：当前仓库缺乏满足企业审计的关键要素：可验证的来源、时间戳与明确许可。要提升为企业级资源，需要在技术层和治理层同时发力。

技术/流程改进建议 ¶

元数据结构化：为每个 prompt 增加 JSON/YAML 辅助文件字段：source_url, collected_date, evidence_hash, collector, confidence_score。
来源证据归档：在受控对象存储中保存原始截图/抓取文件，并在元数据中引用其校验哈希。
提交与签名策略：采用 GPG commit 签名或使用时间戳服务为关键提交加签，增强不可否认性。
PR 审核模板：强制在 PR 模板中填写来源证明与证据链接，CI 验证这些字段不为空。
许可证与法律审查：明确 repo 的 license 或限制，或在企业内部建立内部使用条款与合规审批流程。
同步与备份：将经过验证的数据同步到企业内部的数据仓库/数据库以支持检索与长期存储。

实施步骤（建议优先级）¶

在仓库层面添加贡献指南与 PR 模板，要求来源字段。
建立 CI 流程，自动验证元数据完整性与 evidence URL 存活性。
与法律团队商议许可证策略并在 README 中明确。
对关键数据引入签名与证据存档机制，并定期备份到公司受控存储。

重要提示：即使技术上能增强可审计性，法律合规审查仍是必要步骤；某些来源可能仍被视为敏感或受限制。

总结：通过结构化元数据、证据归档、签名机制与明确的许可与维护流程，仓库可以演进为满足大部分企业审计需求的资源，但这需要组织投入与法律支持。

85.0%

该项目在用户体验上有哪些常见陷阱？如何降低学习成本并提高使用效率？

核心分析 ¶

常见陷阱：

缺乏上手示例：README 没有展示如何把文本转为测试用例或如何验证来源。
自动化工具缺失：尽管主语言为 JavaScript，但仓库没有显式提供解析/转换脚本。
贡献流程不严格：PR 无强制来源字段或审核模板，可能导致低质量或不可验证的提交。

改进建议（降低学习曲线）¶

提供快速入门示例：在仓库中添加 examples/，包含：
- scripts/parse_prompts.js：将 Markdown 转为 JSON 的示例脚本。
- examples/test_case.json：展示如何在测试框架中使用 prompt。
贡献模板与 CI 校验：创建 PR 模板，要求 source_url 和 evidence 字段；CI 检查 metadata 是否存在。
加入合规/风险说明：README 中增加一节“法律与伦理”示例，指导用户如何做合规检查。
提供常见工作流文档：从 git clone 到生成测试集、运行对抗性测试以及记录复现步骤的完整流程说明。

实用操作示例（简要）¶

git clone https://github.com/asgeirtj/system_prompts_leaks.git
运行 node scripts/parse_prompts.js 将 markdown 转为 prompts.json。
利用 prompts.json 生成测试输入并在 CI 中运行。

重要提示：即便提供脚本，仍需在本地为每条 prompt 补充来源证据与法律审查。

总结：通过提供解析脚本、示例工作流与更严格的贡献模板，可以显著降低学习成本并提升数据质量与可用性。

85.0%

✨ 核心亮点

社区关注度高，Stars 数量显著
集中整理多款公开聊天机器人系统提示
未指明许可协议，复用法律风险需自查

🔧 工程化

面向研究与提示工程的系统提示集合，包含多个聊天机器人示例
以 Markdown 文档为主，便于查看与通过 PR 增补条目

⚠️ 风险

许可未声明，可能存在著作权或使用限制的法律风险
包含来源敏感文本（系统提示），可能引发隐私与合规问题
维护者少且无发行版本，长期可维护性与质量保证有限

👥 适合谁？

提示工程师、模型研究者与安全/合规分析师的参考库
适合需要比较不同聊天机器人系统指令与生成行为的开发者与学者