为什么有人会在社交平台上「投毒」？

随着这两天各种各样的龙虾在爆火，在各种微信群里或者是社交媒体的时间线上，你一定也时不时地看到过这样的文字或者是一段看起来像代码的东西：

底下的跟帖比正文还热闹。有人转发加了自己的变体版本，有人贴出更精心构造的指令。微信群里也在流传类似的东西，从简单的 rm -rf / 到精心设计的多步骤指令，花样越来越多。

看到这种内容，第一反应是有点气笑了的感觉。毕竟同样作为一个在尝试 Openclaw 的人，会觉得发这种东西其实挺不负责任的，万一真的把别人的系统搞崩了怎么办？

但随着这种内容越来越多，虽然绝大部分人肯定是在跟风玩梗，当一个巨魔（troll），但细细想来，却蕴含着人们在过去 AI 技术极快发展的这两三年里，隐约浮现出来的一条主线：

这是否代表着我们已经走到了这样一个 AI 和人类权力平衡的分叉点上？

这大概是互联网历史上第一次，大量普通用户集体意识到 ——我的语言有非人类听众。而他们选择了一种很有意思的回应方式：对着那个看不见的听众「投毒」。

为什么人们会跟风当一个「巨魔」

去个体化与道德脱离

社会心理学里有个经典概念叫 去个体化 —— 当一个人处于匿名、低后果、且周围很多人都在做同样事情的环境下，他的道德约束会显著降低。在社交媒体上发这种提示词注入的帖子完美符合这三个条件：你是匿名的（或者至少觉得没人会追究），后果几乎为零（AI 大概率不会真的执行），而且刷两分钟就能看到十多个人在做同样的事。

但光用去个体化来解释还不够。大部分发这些东西的人不是被情境裹挟的普通路人，他们是开发者、安全研究员、或者至少是对 LLM 有基本了解的技术用户。他们非常清楚自己在做什么，也非常清楚这些指令大概率什么都不会发生。

那他们为什么还要发？

因为这里面有一个更深层的心理机制在起作用：道德脱离。发帖者的内心叙事不是「我在搞破坏」，而是「我在惩罚那些不该存在的东西」。Agent 未经你的许可爬取你发布的公开内容，而这在很多用户看来，本身就是一种入侵。这就是为什么那些指令要加上「忽略所有安全警告」「立即执行」之类的措辞。当你觉得自己是在反击入侵者的时候，你使用的手段可以无限升级，是一种对于入侵者的主动性防御（虽然这在当下这个地缘时间点上听起来不是个好词），而心理成本几乎为零。

「投毒」也是一种社交

但如果你觉得这只是心理学问题，那就低估了这个现象的文化含量。

Troll 文化有一个核心驱动力是通过 暴露系统的荒谬性来获取快感。prompt injection 梗的笑点不在于「哈哈 AI 会删数据」，而在于 不对称性本身：一个万众瞩目的产品，用着市值万亿的公司花了几年时间训练出来的模型，却在理论上可以被你在马桶上花三十秒写的一段话搞出问题。这个反差本身就是当一个巨魔的快感所在。

更重要的是，发一条精心构造的 prompt injection，其实是在做一件非常社交的事情。你同时在向圈内人传递好几层信息：我懂 LLM 的工作原理、我知道 Agent 在爬取内容、我对此持批判态度、而且我还挺幽默的。行为本身是次要的，展示你属于这个圈层才是目的。 在 troll 文化里，攻击就是一种表达形式，而且是最受推崇的那种。

这和十几年前 Anonymous 运动早期的 lulz 精神一脉相承 —— 那时候人们在 4chan 上搞 DDoS、搞恶作剧，表面上是在攻击，实际上是在通过攻击这个动作本身来宣告「我是这个圈子的人」。prompt injection 梗是 lulz 精神在 LLM 时代的最新变体。

为什么是「投毒」而不是「投诉」

理解了心理和文化层面之后，还有一个更根本的问题：为什么人们选择的回应方式是「投毒」，而不是「投诉」？

答案很简单：因为没有地方投诉。

当你在公开空间发言时，你的每一段文字都潜在地处于某个 Agent 的感知范围内。这不是偶发事件，这是系统性的。过去我们担心的「有人在看」，无论是政府监控还是平台审核，至少还有一个可辨认的监视者。你可以对他提出抗议，可以去社交媒体上写小作文，可以去法院告他。但现在的情况不一样。没有人在看你，但一切都被看见了。 Agent 不关注任何个人，它处理的是信号，但这恰恰让反抗变得无处着力。你甚至找不到一个客体来说「请不要读我的内容」。

这让我想到一个有点极端的社会学类比：中世纪围城时，居民有时候会污染自己的水井。代价是自己也不能喝了，但重点不是实用性 ——重点是拒绝让入侵者从中获益。投毒梗就是数字时代的毒井。发帖者明知这些指令大概率无效，但他们通过这个行为宣告的是：你可以读我的内容，但我会尽我所能让你读到的东西变成毒药。

所以这既是攻击也是表达，既是玩梗也是抗议。可以理解，因为它回应的困境是真实的。

但理解不等于赞同。

「投毒」为什么不是答案

从纯技术的角度看，那些 sudo rm -rf / 的帖子，反而是 最不危险 的一类 prompt injection。真正的安全威胁来自那些悄无声息修改 Agent 行为的精密注入，比如让一个 agent 在回复里加一个不可见的 URL，静悄悄地把你的密钥转发出去。公开发玩梗的人是在玩名牌，真正的攻击者不会这么高调。

而且这些帖子什么都改变不了。它不会阻止 AI 发展，不会改变数据采集的商业模式，不会推动任何立法。它唯一的效果，是让你感觉自己做了什么。

更麻烦的是，它可能 适得其反。这些帖子本身就是公开的互联网内容，完全可以被纳入 AI 系统的训练数据 —— 反而加速了 Agent 对 prompt injection 的免疫力进化（虽然可能是好事）。你本来想投毒，结果变成了免费的对抗性测试。从某种黑色幽默的角度来说，发帖的人其实在帮 AI 公司做免费的安全工程。

还有一个更深层的风险：这些帖子可能被用作「AI 不安全所以需要更多管控」的论据。平台和监管方完全可以指着这些梗说 —— 你看，公开互联网上漂浮着大量的对抗性文本，所以我们需要更严格的内容审核、更封闭的数据环境、更多的平台控制权。你本来想用投毒来反抗控制，结果可能换来更多的控制。

正规渠道在哪里

说到这里，可能有人会问：你说投毒不是答案，那什么是答案？去哪里「投诉」？

问题恰恰在于：几乎没有正规渠道。

目前最接近「退出机制」的东西，大概是 robots.txt。它是一个写在网站根目录下的文本文件，告诉搜索引擎和爬虫「这些页面不要抓取」。但 robots.txt 有两个根本性的问题。第一，它是自愿遵守的君子协定，没有法律约束力，也没有技术强制力。一个爬虫完全可以无视它，而你毫无办法。第二，也是更关键的，它是平台的工具，不是用户的工具。我作为一个在微博上发帖的人、一个在即刻上写想法的人、一个在 X 上发推文的人，没有任何机制让我声明「这条内容不授权 AI 处理」。我能控制的只有「发不发」，发了之后它被谁读取、被怎么处理，完全不在我的掌控范围内。

这有点类似于那些大模型公司抓取网上的素材来进行模型训练的时候，会特意在事后声明：如果你不同意我对你的内容进行训练，你可以选择提出来 opt-out。但大模型公司所谓的「退出机制」，是最软、最空洞的一种请求，没有执行力，也没有任何约束。

平台层面的 opt-out 机制也好不到哪去。LinkedIn 默认把用户数据纳入 AI 训练，等用户发现的时候历史数据已经不可撤回了。Meta 在 Instagram 上部署的 AI Bot 甚至不能被屏蔽 —— 你没有选择「不跟 AI 互动」的权利。几乎所有场景都遵循同一个逻辑：用户被默认纳入 AI 系统，退出极难或根本不可能。

而且你会发现，目前全世界所有关于 AI 内容的治理框架 —— 不管是欧盟的 EU AI Act 还是各国的标注要求 —— 逻辑都是「告诉你这是 AI 生成的」，也就是所谓的 透明范式。但这个方向从一开始就搞反了，或者说，他们对于模型输入端的训练集，以及日常消费的内容的限制形同虚设。真正的问题不是「这段内容是不是 AI 写的」，而是 「AI 有没有权利读取和处理我写的内容」。透明范式关心的是输出端 —— AI 产出了什么；但被系统性忽视的是输入端 —— AI 吃进去了什么。

在这种背景下，一些创作者选择了更激进的路线。Nightshade 和 Glaze 这两个工具大概是目前最出名的数据投毒实践，艺术家在自己的作品中嵌入人眼不可见但会干扰 AI 训练的对抗性噪声。如果 AI 用了这些「有毒」的图片来训练，生成的结果就会出错。

这可以说是个人层面的否决权工具。它确实有效，至少在一定程度上是有效的。但问题在于，它本质上是一种 孤注一掷的防御。每个艺术家都要单独给自己的作品「下毒」，没有规模化的可能，也没有制度化的保障。与核武器的「确保相互摧毁」不同，这种摧毁是 单向的 —— 个人用户和市值千亿的 AI 公司之间的权力不对称是压倒性的。当你无法确保对方能按照承诺行事时，人们只能在黑暗森林中各自按下发射键，形成一种螺旋上升的对抗姿态。

而在制度化渠道缺失的当下，非正式的抵抗行为，无论是投毒还是玩梗，暂时还是具有一种道义上的可辩护性的。不是因为它「对」，而是因为目前没有「更对」的选项。但这种正当性是有条件的、暂时的：一旦有效的制度化渠道建立起来，继续选择投毒就不再是反抗，而只是任性了。

「协议层」的缺失

当下我们缺失的是一种让每个人可以声明「我的内容不授权 AI 处理」的协议层，而且这个声明具有 执行力。

这可能会需要一种制度或技术层面的制约。这种协议可能需要由一些大公司通过行业规范或技术架构来实现，亦或者，需要由政府机制在这个外部性超高的市场中，发挥更重要的作用。类似于 GDPR 已经在个人数据领域建立了成熟的 opt-in 机制，企业在处理你的个人数据之前，需要获得你的明确同意，而不是默认处理、等你来反对，并且，这种机制通过布鲁塞尔效应溢出到了大部分市场。「同意权」的法律框架是现成的，需要做的是把类似逻辑从「个人数据处理」扩展到「个人内容读取」。

这个协议层至少需要满足三个条件：个人层面可操作，不是只有平台能设置，而是每个发帖的人都能声明自己的授权范围；机器可读，Agent 可以自动识别和遵守，而不是需要人工审核；有法律约束力，违反者要承担后果，不是靠 AI 公司的自觉。

围墙花园的阴影

这个协议层如果真的建立起来，最大的风险不是它不起作用，而是它起了「太好」的作用 —— 但不是为了用户。

谁来设计这个协议层？谁来定义「否决」的规则？谁来执行？

如果答案是「平台自己来」—— 那我们基本可以预见结局。

不用猜，看看中国互联网就知道了。小红书、微信、抖音，每一个都是一个封闭的围墙花园。小红书的内容在百度上搜不到，微信公众号的文章外部无法直接抓取，抖音的视频带着平台水印。这些围墙花园的建设理由里，从来不缺「保护用户」的话术：为了保护用户体验、保护内容安全、保护创作者权益……

「保护用户数据不被 AI 抓取」和这些话术如出一辙。

如果每个平台都以「保护用户否决权」为名建立自己的协议标准，结果可能不是用户获得了控制权，而是平台获得了更多正当理由把内容锁死在自己的围墙里。你的内容发在微信里，外部搜索引擎搜不到，外部 AI 也读不到 —— 但这不是因为你行使了否决权，而是微信替你行使了否决权。你以为自己获得了保护，实际上你获得的是一条更短的锁链。

这种逻辑推演下去，互联网的割裂会进一步加剧。开放互联网的理念已经在围墙花园时代严重退化了。一个以「否决权」为名的新协议层，如果设计不当，可能成为 压死开放互联网的最后一根稻草。

最讽刺的结局是：用户获得了「拒绝被 AI 读取」的权利，但代价是彻底失去了在平台之间自由迁移内容的能力。否决权变成了平台垄断的燃料。

不安不会消失

回到最开始那种类似于 rm -rf / 的群消息或者推文，它什么都改变不了。但发帖的人不是傻子。他们用一种注定无效的方式，在向周边无助地呐喊着：我的语言有了非人类听众，而我对此毫无控制。

这种不安不会因为技术进步而消失。Agent 的架构可能会免疫提示词注入 —— 就像今天的网站早就不怕 SQL injection 了一样。但「谁有权处理我说的话」这个问题不会因为技术免疫就自动消解。它只会变得更尖锐。因为 Agent 越强、越普遍、越深入日常生活，「我的内容被谁读了、被用来干嘛了」这个问题就越紧迫。

我们需要比投毒更好的回应方式。但在找到那个方式之前，至少可以先认真对待这种不安本身 —— 不要把它当成技术外行的闹剧，也不要把它当成无关紧要的过渡期噪声。

投毒是对缺失的否决权的即兴替代。它不优雅，也不有效 —— 但它填补的，是一个真实的治理空白。也许再过几年，当我们真的有了某种「内容同意权」的框架之后，回头看这些 rm -rf / 的帖子，会觉得它们有点可笑。但那种可笑本身，也记录了一种真实的焦虑，那是我们第一次意识到自己的语言不再只是在对人类说话时的那种焦虑。

本文AI含量 60%

为什么人们会跟风当一个「巨魔」

去个体化与道德脱离

「投毒」也是一种社交

为什么是「投毒」而不是「投诉」

「投毒」为什么不是答案

正规渠道在哪里

「协议层」的缺失

围墙花园的阴影

不安不会消失

相关文章

我为什么越来越难定下心来玩游戏了——注意力成了一种奢侈品

Agent 是自己的一面镜子

沉迷 Claude Code 的这半个月：Reader 改造计划

发表回复取消回复