不要在公司 Teams 里说 “shit”

这两天,公司的 Teams 群里上演了尴尬一幕。某个服务宕机后,一位同事在群聊中下意识地回了一句 “shit”。在我们看来这稀松平常,但一位韩国 Leader 随即在群里严厉警告:Watchout your language。

这次冲突让我意识到,作为中国人,我们对英语脏话的钝感与他人的敏感之间,存在着从心理到文化上的诸多差异。

先不提这个 Leader 是不是英语母语。在不同语言的人们的沟通中,存在着一种情感分离效应(Emotional Detachment)。 对非母语者而言,第二语言的脏话往往被剥离了情感重量,退化为单纯的语义符号。说出 “shit” 或 “fuck” 时,大脑中负责恐惧与羞耻的边缘系统并未被激活,它们听起来更像加强语气的助词。但对母语者而言,这些词根植于成长环境,自带生理性的攻击力,能瞬间唤起真实的冒犯感。

此外,文字作为一个媒介,它和日常的口语说话时也不一样。文字是冻结的,它没有人们日常说话时的肢体动作、表情等作为缓冲。这行字所携带的攻击性,被文字这个数字化媒介放大,往往会被解读为情绪失控,甚至缺少职业素养。

当然,人们反应的不同和行业有一定关系。如果是在一些互联网企业,有时候在软件里说脏话,会被认为是非常正常的一种行为,因为你的情绪是允许激动的,大家交流更加随意。而在一些传统行业里,脏话往往会被认为此人情绪不稳定等等。

不同文化里的人对脏话的接受程度也不同。可能在一些文化里,人们会觉得用脏话只是非常正常的一种表达方式,而对于一些比如韩国、日本这些大量使用敬语的国家而言,说脏话是非常没有素质的。

让我们脱离开这个工作场景,往上再看一层,看一下在中国互联网语境和外国互联网语境中的区别时,又会发现一个更有趣的视角。

我们在数字化方面形成了一种独特的「方言」。在中国互联网语境下,我们会习惯了使用微信来进行工作。Teams 对我们而言只是一个企业版的微信。我们在发消息的时候是碎片化、即时性甚至情绪化的。我们把秒回视为敬业,把这种口语化短句视为高效。

然而在欧美传统职场,Teams 更像是一种「短邮件」。他们遵循低语境逻辑,严格区分公私领域。他们追求异步沟通,要求一次性把背景、问题和行动精准表达。在这种追求信息密度的“邮件式场景”中,一句纯粹发泄情绪的脏话,不仅显得多余,更是一种破坏专业性的噪音。

如何通过 Notion AI 追踪自己的情绪

自从 Notion 进入 3.0 时代之后,我又重新订阅起了 Notion AI,其中的原因很简单,就是 Notion Agent 的引入使得每个个体的信息库、知识库,乃至项目管理的效率大幅提升。

目前我每天频繁会使用至少 3 个 agent,来进行学习、阅读、生活管理。今天我来分享一下如何通过 AI 来追踪自己的情绪。

流程

先说一下我的做法。一般白天我会在我的手帐里以 lifelog 的形式记录我当天遇到的事情、完成的任务、遇到的有趣的事,乃至阅读中的闪念。日常手边只有手机的时候,也会通过 Flomo 来录入。每天晚上,我会通过闪念贝壳,来把这些 lifelog 通过语音转文字一口气录入给 Notion AI。

Notion AI 会调用我的一个「日报助手」agent,来对我的 lifelog 以及当天从其他各个途径录入到 Notion 的信息进行分析,而其中我设置了一个 property 是分析当天的 lifelog,判断我当天的情绪

一开始我只随便写了一句话 prompt, 让 AI 分析我当天的主要情绪前些天和 Marvix 聊了之后,决定尝试一下用更科学的方式来对自己长期的情绪进行追踪。他的建议包括通过「八大情绪」来把情绪更加科学地进行整理。

根据他的建议,我写了一段 prompt (请阅读我输入的内容。基于 Plutchik 的八大情绪分类(喜悦、信任、恐惧、惊讶、悲伤、厌恶、愤怒、期待),分析我在这篇日记中体现的主要情绪。选择一个选项填入。)和标签设置之后,我试着把之前一个月的记录批量生成了一次情绪,结果却发现,为什么过去 30 天里,有 20 天我的情绪都是「快乐」?

我当然希望自己是个快乐的人,很多人也评价过我「情绪平稳」。但我很清楚,作为一个牛马,工作中必然会遇到挫折,生活中和家人的互动,乃至居家生活中,情绪也必然会有起伏,但这些波动在 AI 的总结里全都消失了,只剩下一片祥和的「快乐」。

那么显然,要么是我的输入有偏,要么是「算法」出了问题。

问题在哪里

我的输入是有偏差的

尽管日记本身是给自己记的,但是记录的过程本身却可能会发生在公共场合。为了维护在他人心中一个积极、阳光向上的形象,在记录时,我的记录会不自觉地变得更加平和,这会造成日记和实际情绪的偏差。

另一个原因则是我的输入方式的问题。当用笔记录下内容的时候,当时的情绪可能会得到宣泄。但当一整天过去,晚上通过语音进行录入时,那些负面情绪往往会已经消退了,即所谓的「褪色情感偏差」,输入到 Notion 里的内容会缺失了很多负面情感。

大语言模型的问题

在输入之外,还有一些偏差可能是由模型带来的。LLM 自带的两种特性:积极偏见(Positivity Bias)与 平均化逻辑。

积极偏见

当你把一整天的流水账丢给 AI 时,其中 80% 的内容其实是中性的维护性事务:起床、通勤、吃饭、完成任务。在没有显性的负面关键词(如「痛苦」、「崩溃」)时,AI 倾向于将“生活正常运转”理解为「快乐」。

平均化

我之前的指令是让 AI「分析这一天的主要情绪」。想象你是一个调酒师:你倒进了一份咖啡、一份白开水、一份威士忌、一份橙汁和一杯快乐水。搅拌之后,你问 AI 这杯水是什么味道?AI 尝了一口,礼貌地回答:“嗯,甜甜的,还能喝。” ——这就是那个虚假的「快乐」。

生活中的情绪不是平均数,很多时候,决定我们那一天心理状态的,往往是那一两个剧烈波动的瞬间。而这是 AI 在不经调整的情况下无法理解的。

修正

明确了问题,那下面就需要对输入和算法进行修改了。

提高输入的「信噪比」

发现问题后,我开始调整我记录 Lifelog 的习惯。

语音转文字虽然方便,但往往会丢失语气。如果我只是记录「今天老板驳回了方案,我改了第二版。」AI 读到的是「完成了任务 -> 勤奋 -> 快乐。」但当时我的真实心境可能是极度挫败的。所以现在,我在录入时会刻意增加主观形容词的密度:

「今天老板驳回了方案,我觉得很受打击,这完全是在浪费时间,但我不得不硬着头皮改了第二版。」

这一句话的改动,就能让 AI 敏锐地识别出「厌恶」或「悲伤」,而不是原本那个和稀泥的「快乐」。

并且,在一天的最后通过语音输入的时候,我也会主动保留原纪录里的一些语气词。

迭代 prompt

心理学中有一个著名的 「峰终定律」(Peak-End Rule):人对一段经历的记忆,主要取决于情绪最强烈的瞬间(峰值)和结束时的感觉(终值),而不是整个过程的平均体验。

既然我要做的是「情绪追踪」,我就不应该让 AI 来取平均,而应该让它做「雷达」,来发现我记录中真正影响情绪的部分。

于是,我重写了我的 Prompt。我不再要求 AI 总结全天,而是要求它捕捉异常值。以下是我迭代后的 Prompt,如果你也在用 Notion AI 做类似的事,可以直接拿去用:

Role: 你是一位敏锐的心理情绪分析师。
Task: 阅读这一天的 LifeLog,基于 Plutchik 的八大情绪分类,找出这一天中情绪强度最高的那一种情绪。
Rules:
- 忽略流水账: 自动过滤掉吃饭、睡觉等常规活动,除非包含强烈的主观形容词。
- 捕捉异常值: 不要对全天的情绪取平均值。哪怕一整天都很平静,但有 15 分钟极度的「愤怒」或「悲伤」,这一天的标签应该是「愤怒」或「悲伤」。
- 负面敏感: 即使正向事件数量多,如果存在明显的负面情绪事件,请优先权衡其对心理的影响。

效果非常明显,我用 Notion AI 重新跑了过去一个月的数据,

「快乐」从 20 次降低到了 12 次,与之相对的是「自责」和「生气」的大幅上升。

虽然快乐仍是主流,但无疑更符合我日常的体感。

此外,我还添加了一个更进一步分析情绪的prompt,以帮助我更细化了解为什么会有这个情绪,强度如何,以及有什么更细微的情绪变化。

结合我的情绪,给出情绪强度【1-10】,用一句话总结引发情绪的具体事件,并描述出当天情绪的细微差别: [用更精准的词描述,如:焦虑、自豪、惆怅]」

为什么要做这些

做情绪追踪这件事的初衷,并不是为了得到一张漂亮的图表,而是为了提升对自我的了解,以针对性地改善自己的生活。

如果我的生活只有「快乐」和「不快乐」两种状态,那我的认知就是低分辨率的。通过强迫 AI 去区分我是「愤怒」还是「恐惧」,是「期待」还是「信任」,我也在强迫自己去正视那些被忙碌掩盖的细微感受。

数据有时候会撒谎,特别是当 AI 会试图讨好你的时候。我们能做的只能是尽可能地纠偏,纠 AI 的偏,也纠自己的偏。

为什么同样是「四处出击」,腾讯比字节更容易被骂?

注:本文由 Notion AI 整理

前几天在即刻上看到潘乱发起了一个讨论:为什么同样是在各个领域出击,字节相比于腾讯被骂得少了很多?这个问题让我想了很久,于是和 GPT5.1 展开了一场长谈。整理这次对话的过程中,我发现这个问题远比表面看起来复杂得多。

一个核心的认知差异

在开始分析之前,先说一个最重要的观察:腾讯和字节在用户心智中扮演的角色完全不同。

腾讯更像是「既得利益的垄断守城者」,而字节更像是「后来者、搅局者、甚至有点草台班子气质的挑战者」。这种角色认知的差异,叠加了时间节点、商业模式、舆论结构等多重因素,最终导致:

  • 腾讯被骂多的是「垄断、收割、堵路」
  • 字节被骂更多的是「内卷、文化、内容价值观」

但在「跨领域扩张」这个维度上,字节的「垄断资本恶龙」形象确实没那么重。

时间节点决定了角色定位

腾讯:在关键时刻成为基础设施

腾讯真正奠定今天地位的时期,是 PC 互联网向移动互联网迁移的那几年。当微信横空出世时,很多领域还处于「可被重构」的阶段——移动社交、移动支付、移动内容分发都还没有定型。

腾讯用已经建立的优势(QQ 的社交关系、游戏业务、内容平台)迅速建立了基础设施型垄断。在用户和行业的认知中,「某个领域刚起来就被腾讯全部打包带走」这种印象,很容易形成「扼杀创新」的叙事。

字节:存量时代的挑战者

相比之下,字节崛起时,移动互联网的格局已经基本定型,BAT 已经确立。即便今天抖音再强,整体的「基础设施格局」也从来不是它掌握的。

这就导致字节的扩张更容易被解读为「想从巨头手上撕下一块肉」,而不是「拦在新玩家门口不让进」。同样是到处出击,腾讯是从「强者更强」出发,字节是从「弱者上位」出发——后者的道德负担自然轻一些。

进入赛道的动机叙事完全不同

腾讯:在红海后期强化封锁

很多针对腾讯的批评来自这样一种模式:等创业公司把赛道教育出来,用户已经形成习惯,然后腾讯要么重仓投资头部(通过「投资+流量」形成封闭生态),要么自己出一个「集大成者」,配合微信/QQ 导流压制其他竞争者。

这种打法在商业上无可厚非,但舆论上非常容易被写成**「垄断、扼杀创新、收购再封锁」**的故事。

字节:试错驱动的扩张

字节很多领域是自己从 0 做到规模的,比如信息流新闻、短视频、电商直播。它往往把一个赛道从边缘推成主流,而不是等别人做成了再进场。

即便是后来切入的领域(搜索、电商、音乐),也更像是把原本「被某家大厂锁死」的结构打乱,拉高整个赛道的竞争强度。行业叙事就变成了:「让腾讯/阿里不敢躺着收钱」,而不是「阻止别人成长」。

字节的很多项目给人的印象是「高风险、高死亡率的试验田」,而腾讯的项目给人的印象是「已经算好账的扩张棋子」。在舆论中,前者更容易被当做「创新尝试」,后者更容易被当做「资本收割」。

舆论结构的隐形影响

这里有一个容易被忽略的点:你看到的「谁更被骂」,很可能受到信息采样偏差的影响。

针对腾讯的负面叙事,很多是在新闻、长文、专业论坛中沉淀的——这些内容更容易被关注互联网行业的人看到。而针对字节的负面(沉迷、低俗、直播乱象),被拆散在大量零散内容和个体吐槽里,感知上就不那么集中。

更有意思的是,字节掌握的抖音和头条,本身就是算法驱动的内容平台。算法的「隐性控制」让用户不太容易感知到平台在操控舆论,而更像是「只是推你喜欢看的」。相比之下,腾讯在社交和内容领域的控制更「可见」,也就更容易被质疑。

业务痛点的类型差异

还有一个维度值得注意:腾讯和字节对用户造成的「直接痛点」不一样。

腾讯的痛点集中在刚需基础设施

  • 微信社交不能不用
  • 微信支付深度嵌入生活
  • 游戏高利润与「未成年」「氪金」等议题高度绑定

这些领域一旦被认为「不公平、不开放、滥用地位」,情绪会非常集中。

字节的痛点集中在娱乐/内容层面

  • 抖音是「强上瘾但非绝对刚需」的产品
  • 用户更多骂「我自己控制不住」「孩子被带坏」
  • 这类痛苦在心理上更容易被归因为「我自己不自律」,而不是「平台滥用权力」

对刚需基础设施的不满,更容易转化为对平台本体的道德审判;对娱乐内容的不满,更容易转化成「这社会就这样了」的叹气。

一些被忽视的变量

在和 GPT5.1 的对话中,它还提醒我注意了几个容易被忽略的因素:

创新叙事的差异:腾讯长期背负「抄+买+封」的标签,而字节至少有几个「硬创新」能拿得出手(今日头条的推荐算法、抖音对短视频形态的重塑)。有了这些,舆论更容易给它「有真本事」的期待。

开发者生态的关系:腾讯对开发者生态的封闭和博弈(小程序规则、外链限制、账号体系封闭)是长期怨气的来源。字节在这方面的控制力没那么强,甚至在某些阶段被视作可以「绕开腾讯的一个通道」。

成长故事的加成:用户天然会给「白手起家、打破旧格局」的公司情感加分。即便字节今天已经是巨无霸,很多人情感上仍把它当成「敢挑战巨头」的代表。

写在最后

整理完这次对话,我发现这个问题的答案其实没有那么简单。不是说字节就比腾讯「更好」或「更坏」,而是它们在不同的时间节点、以不同的方式、进入了不同成熟度的赛道,最终在公众心智中形成了完全不同的形象。

腾讯被要求像「公用事业」一样克制,因为它掌握了太多基础设施;字节还没到那个位置,所以道德审视的标准也不一样。

也许再过几年,当抖音真的变成下一代的「国民级基础设施」时,字节也会面临和今天腾讯一样的拷问。到那时,会有新的挑战者出现,继续这个循环。所谓的「屠龙者终会成为恶龙」的故事永远不会停止上演。

AI 录音硬件是个伪需求吗?(Plaud Note Pro 购买复盘)

自从以 Plaud 为首的 AI 录音软件在国际市场崭露头角,越来越多的人开始关注这个领域,也有越来越多的厂商进入这个赛道。尽管社交平台上不乏质疑声,但至少这是个逐渐升温的市场。

我的探索历程

最初,我在 2022 年底发现了 Rewind(现已更名为 Limitless)。它推出了一款名为 Pendant 的颈挂式智能硬件,号称可以记录生活中的所有输入。我第一时间预订了这款产品,但它经历了一次又一次的跳票,直到今年才大规模发货。而我在 2024 年就已经取消了预订。

期间,我也尝试过传统大厂的产品,走了不少弯路,比如购买 DJI Mic Mini 来充当录音笔。最终,当 Plaud 这款相对昂贵的产品进入我的视野时,我立刻被它的颜值和功能吸引,果断入手。

起初我想买海外版,也看了很多评测。就在准备下单前一天,Plaud 上新了 Plaud Note Pro,我按捺住了冲动。一周后,Plaud 宣布在国内上市。我曾纠结于国内版和海外版的选择——海外版可以使用国外模型,而国内版因合规要求只能使用国内模型。综合考虑后,我最终选择了国内版,将其作为录音硬件使用,搭配自己订阅的 Gemini 模型。

AI 录音软硬件是真需求吗?

回到核心问题:AI 录音软硬件是否是刚需?我们可以从两个维度来理解这类产品的定位:

  • 便携录音笔
  • AI 场景入口

我需要一个便携录音笔吗?

从第一个维度看,经过实际体验,答案毫无疑问是**「要」**。

主要原因在于,手机虽然是最方便的录音工具,录音效果也不错,但它会被随时占用。长时间录音时,录音功能很容易被其他软件抢占,导致录音暂停,甚至后台被杀,无法保存录制内容。

与此同时,我有一个常见的需求:日常通勤或晚上锻炼时,我经常骑电动车或公路车,时长半小时到一小时。这期间,我会戴着一只 AirPod。

由于苹果系统的限制,戴着耳机时,录音系统会自动选择最后接入的设备作为麦克风。也就是说,戴上耳机后开始录音,耳机的麦克风就会成为默认选项。

AirPods Pro 的麦克风质量远逊于手机自带麦克风,尤其在通勤和骑车场景下,风声和周围噪音会让录音几乎无法使用。

这种场景下,一个既能便携地吸附在手机背面、又能独立分拆的麦克风,自然成了我的需求之一。

另一个场景是:在外听讲座或参加快速会议时,拿出手机录音显得很不礼貌,也容易遭人拒绝。而吸附在手机背后的麦克风,影响程度会小得多。

这也是我没有选择 Plaud Note Pin 这类装饰型产品的原因——装饰虽小,但仍然显眼,一旦被认出来就会很尴尬。

我需要一个硬件产品作为 AI 场景入口吗?

答案是需要,但 Plaud Note Pro 并不是我理想中的产品。

之前我也看过 Plaud 创始人许高以及莫浩宇在博客访谈中的分享。他们并未将 Plaud 定位为单纯的硬件公司,而是希望通过积累用户日常生活中的上下文数据,让人们逐渐依赖 Plaud 及其背后构建的生态数据库。

但对我而言,我是否愿意将所有上下文、所有 context 都托付给 Plaud?至少目前,答案是否定的。我的上下文不仅包括日常语音,还涵盖各种剪藏、快捷输入、主动记录的笔记,以及日常的存储数据库等。Notion(结合 Notion AI)是我这半年来最主要的个人场景整合工具之一,这点我会在之后关于生产力系统的文章中详细说明。

在这种情况下,我显然不希望将所有数据都绑定在 Plaud 这个产品内。这也是我选择 Plaud 国内版而非国际版的原因。使用国际版意味着需要支付更多费用来获取最优模型,而它自己的 APP 目前使用体验还比较差。因此,我倒不如只使用它最基础的语音转文字功能,提取出转写文稿。

我用当前最好的大模型——我订阅的 Google Gemini 2.5 Pro,来对这些语音转文字素材进行总结,再录入到 Notion 中。从效率上并没有损失太多。而且即使用完本月语音转文字的配额,我还有其他买断制语音转文字产品,可以进行语音转文字转写,之后再在 Gemini 里整理。

这样,我既能获取最好的模型,达到想要的效果,同时又能保证所有内容、所有上下文都在统一的场景下得到管理。这对我而言,无疑比将所有内容都托付给 Plaud 更具吸引力。

所以,AI 录音硬件是一个伪需求吗?

对于我而言,答案很明显:并不是。而我相信,在现实世界中,有许多与我有类似需求、面对类似场景的人,同样需要 AI 录音硬件为他们的日常工作生活赋能。

然而,我需要的不是生态而是工具。

不可否认,Plaud 和 Limitless 这类公司的愿景极为宏大。可以想见,他们作为生态系统所要达成的目标,在可预期的未来是有可能实现的。然而,OpenAI 之类的公司也必然会设法抢占这一市场。而 Plaud 之类的公司在之后走向开放,比如开通更多自动化 API 功能,也许是一个思路。

这些 AI 录音硬件公司当下要做的,唯有将产品尽可能打磨至极致。就像 Plot 那样,把产品打磨成一件艺术品——继承苹果过往的美学基因,让人因设计而买单,而非仅因功能而买单。这或许是他们能够走下去的一条路径。

那么,AI 录音硬件是伪需求吗?它不是。但市场空间能有多大,取决于这些公司能看到多远,走到多远了。

预制菜为什么是个问题——读财新专题报告有感

预制菜的热点也快过去了,老罗也把重心放回到了播客上(对老罗播客的一些观感可见罗永浩播客感想)。虽然他一开始肯定是有蹭热度的心态,但最终发展到如此大的影响面想必也是他没有料到的。

财新一周前的周刊里有一篇文章对预制菜做了详细的报道,里面的一些分析思路挺有意思,摘录一些放在下文。

国内预制菜的发展历程

和发达国家不一样的路径

日本及部分西方国家食品工业话较为成熟,带动了预制菜的发展。
中国实际上是从另一条路径走上了预制菜发展的道路。预制菜是外卖行业蓬勃发展所推动的。现在外卖收入在不少餐饮店的整体收入占比中超过一半,在平台「半小时达」的要求下,商家必然注重出餐速度,门店现制显然不可能。

疫情的奇妙影响

预制菜投资热的关键催化因素是疫情推动了冷链物流网络的的建设布局,进一步解决了供给问题,加上消费者当时对于预制菜有需求,拉高了资本市场预期。

预制菜的好处

• 规模效应 – 集中采购原料,降低成本
• 品牌化 – 不同门店口味统一

此外还有一个没想到的角度:

传统餐饮服务业的增值税率为 6%,而将菜品制作环节外包给预制菜工厂,后者的增值税率可能按 9%或 13%征收。对于国家来说这进一步优化了税基结构。

预制菜问题并不只是食品安全问题

《食品安全法》只要求食品无毒无害,而这段时间激起讨论的扳机反而是销售中的欺诈问题。

消费者关注的核心是透明度,是不希望在承担高价格的时候成为冤大头。

食品工业的发展是必然趋势,市场上出现越来越多的「预制菜」也是无法避免的。当前对于预制菜的定义在消费者、行业、政府之间存在很大的 gap,西贝就是在拿自己参与订立的行业标准来试图建构消费者的内心概念,最终反而和消费者背道而驰。

重新建立商家和消费者之间的互信需要行业自律,也更需要一些政策上的监管,也期待能有一些诉讼案例能提供参考。

在 AI 时代,做「有机」的创作者

上个月看到 orange.ai 的公众号文章,提到了 AI 时代的「有机」的概念。并且他直接把公众号的名字改成了「有机大橘子」,也算是非常有行动力了。

在食品中,有机的东西总是更贵些。而在各种表达被人工智能占据的场域,手搓无添加的内容成了稀有物,这何尝不是一种「有机」。

那么,在 AI 内容生产中,什么才叫有机呢?我们常说 AI 写的东西没有人味儿,这其实就在于,AI 输出东西时,他只有 intelligence, 没有 context,那么自然就缺乏生命力。虽然现在越来越多的大模型引入了记忆功能,但它毕竟不能代表我们所有的思考,无法记录人和人之间的互动,没法记住肌肤被夏日灼热的空气覆盖的感受。这些细小的细节构成了我们生而为人的真实感,思考加上感受,才能构成真实而自我的表达。之前在Context 的重要性;小红书+淘宝1中也写过一些感想。

表达本来就是一种力量,一种可以用来确认自己活着的权利。

那为什么我还会把 AI 应用于我的日常写作之中呢?这需要先区分开写作和编辑的区别。如以前文章所描述,无论写作才去的是流水式还是建筑家的模式,写作出来的内容、其内核还是来自于我们自己。AI,可能是通过如语音转文字等手段提高了输入效率、抑或是在后期编辑中快速修正表达、格式,本质上还是通过把标准化、重复性劳动外包给 AI 来提高效率,而其内核、表达的方式还是自己的。

当然,在这个过程中,有时候 AI 编辑和自己写作之间的那条「线」会比较难以划分清晰。AI 在编辑过程中所占的比重应该有多少这一问题也没有定论。有些创作者会认为,只要主题是自己的,论证过程全由 AI 来完成也无所谓。甚至有不少 Newsletter 作者选择了只由自己挑选阅读的文章,简介、评论都放手给 AI 来完成。

仅从我自己的价值观和审美上来看,对于上述的用法我并无法苟同。其实在 AI 辅助写作上我也尝试了不少方法,应用 AI 的比例也经历过不少反复。例如,在 AI 刚刚大行其道时,我也曾尝试过全由语音输入,让 AI 改写文字,调整逻辑、语法等。虽然这一方法看起来仍保留了我作为创作者,在观点输出上的主体性,但经过一段时间,我却发现,一个人的文风、用词也是构成「表达」的重要元素。

在这一过程中,Flomo 的产品哲学也给了我一些思考的引导。他们的 AI 语音转文字力求尽量保留创作者的文字,只去除一些口癖。这种记录方式有利于记录者回忆起记录时的场景,显得这些记录更像是自己的。

这其实和上文提到过的 context 也有关。「表达」不止是观点,更涵盖了与之相关的表达方式,只有两者相加,叠加上场合、地点、天气等众多因素,才构成了完整的表达。我们在创作中可能难以完全复刻所有的 context,但至少通过更「有机」一些,能让更多的 context 得到保留,能让我们产出的内容更像我们自己。

自行车比赛正在 F2 化吗?

这是我前些日子刷即刻的时候,看到有人讨论自行车比赛越来越无聊的时候发散出的想法,纯属瞎想,没有事实/数据支撑。

自行车比赛越来越难看了吗?

如果你曾关注过过去这一两年的公路自行车比赛,那么不可避免地会经常看到诸如「波加查/UAE」又赢了之类的评论,乃至于会有不少人开始诟病,是否现在的自行车比赛变得越来越难看了。

这里我们不去讨论某些具体运动员/车队过于强大,掩盖了其他车手的光芒的问题,毕竟这一现象在所有运动里都存在(人们会质疑乔丹损害了NBA、林丹损害了羽毛球吗?)。而且自行车运动的特殊性,也使得不同类型的车手都有竞争属于自己的赛段的机会。

当我们排除掉这些因素之外,会发现自行车比赛和 F2 有着不小的相似之处。

自行车比赛正在「F2化」?

如上文所说,相比于讨论波加查的强大是否使得自行车比赛失去观赏性,不如聚焦于一个最近偶然想到的一个比喻,即自行车比赛是否正在「F2 化」。

这里没用 F1 做比较,是因为自行车虽然有不同的品牌,但是器材的差距远小于 F1,更接近于统规赛,在此基础上,各个车队的调教、策略、经验以及车手的个人能力会发挥更为重要的作用。

现代自行车比赛中无线电的运用实际上在一定程度上缩小了车手间经验的差距,所以我们能看到越来越多的年轻车手出现在总成绩竞争的前列,而不像传统意义上,自行车手要到30岁左右才能达到个人能力与经验的巅峰,这和 F2 里,年轻人的能力往往比老人更强有类似之处。

「F2化」下也存在贫富不均

  • *但「统规」并不能防止自行车比赛里的贫富不均。**最强的车队比如 Visma 和 UAE 能通过无线电、强大的电脑计算来制定精确的策略,车手的经验以及偶然性被一定程度上抹杀了。虽然这能更好地方便一些有观赏性的策略的实施,比如空中加油(比如今年环意,范阿尔特完美的空中加油,同事导播前期故意不给他镜头也增加了戏剧性)。但小车队夺冠的可能性也减小了,同时减少的也包括车手头脑博弈所导致的观赏性。

(参考知乎[失落的优雅的回答](波加查一骑绝尘连续称霸环法赛场,是否对公路车运动观赏价值带来负面影响? – 失落的优雅的回答 – 知乎 https://www.zhihu.com/question/1929593186029895862/answer/1936378297043883664))

但为什么这些年有时候会感觉 F2 比自行车比赛更有意思呢?

这可能是因为,在 F2 比赛中,虽然存在着各种各样的高科技、车队指挥、类似的车辆,但个人的驾驶技术、驾驶风格仍然是影响力最大的因素,重要的是头脑。而在自行车比赛里,体能、爆发力、恢复能力这些非头脑因素才是最重要的影响因子。换句话说,人们欣赏体育竞技,虽然很多人会喜欢精妙的团队配合,但是最能激起肾上腺素的永远是那些属于人本能的部分。

可能这也是为什么那么多人喜欢前两年的波加查的原因吧,那些没有道理的进攻往往让人热血沸腾,也许这在某种意义上才代表了体育的初心?

最后用 Flomo AI 洞察的一段话作为结尾吧。

体育比赛卖的是“竞争”,可“竞争”的核心从来不是“谁的策略更精确”(F1可能是个特例),而是“谁的人更有韧性、更有勇气”。说到底,我们热爱的比赛,从来不是“机器的精确对决”,而是“人的故事”——那些汗水、那些意外、那些“明知不可为而为之”的勇气,才是让我们热血沸腾的原因。技术可以让比赛更高效,但不该让比赛变成“机器的游戏”;信息可以让决策更科学,但不该让决策变成“数据的奴隶”。

突然想起之前谈到F1大电影时,觉得剧情“不能带脑子看”,可还是愿意二刷IMAX——不就是因为那些“人的故事”,那些“速度与激情”的瞬间,比剧情更动人吗?

—— Flomo AI 洞察

明日方舟2025夏活「墟」简评 & 简单聊聊娱乐产业中的文化挪用

剧情简评

习惯了方舟夏活=阳光沙滩的公式,今年的「墟」终于有了些不一样。通关之后,整体的感官还是不错的,剧情水平在今年的一众剧情里可以排到超大杯下,略高于「红丝绒」。它一反常态地抛弃了过去夏活那种活温馨、或搞笑的假日氛围,转而用一种沉静又略带伤感的笔触,成功地描绘出了东国的另一面。

这次活动最成功的地方,就在于它对各种「昭和」文化标签的运用。这种大规模的意象堆砌,很容易搞成一个缝合怪式的四不像产物(「昭和米国物语」这种用堆砌刻板印象来解构文化的不算),但「墟」却没有,反而通过这些元素,精准地营造出了一种独特的「物哀」美学。

比如三船对「漂亮」的病态追求、烟花大会下充满宿命感的决斗,这些情节都指向了某种绚烂而短暂的、带着毁灭倾向的日式美学。对神明的塑造也很有特色,祂们并非主动干预世事,而是「因事情发生而显现」,这种超脱感一下就摆脱了脸谱化的窠臼,让整个故事的文化基底显得非常扎实。

文化挪用

说到这里,我想多聊几句关于「文化挪用」的话题。 很多游戏和电影在处理异国文化时,特别容易犯一个毛病,就是把各种文化符号当成一个免费的素材库,随便拿来拼接。他们看中的往往只是这些符号的「形」,而不是其背后的「神」。

好莱坞电影里,我们看腻了白人主角在日本/中国学会人生哲理顺便拯救世界的套路,异国风情只是主角个人成长的背景板。游戏里也一样,基本一提到日本就是赛博朋克、武士、忍者、黑道,仿佛这个国家除了这些标签之外就空无一物。这种做法,本质上是一种猎奇和消费,它看似是在展现文化,实则是在加深刻板印象。

而「墟」的难得之处,就在于它没有停留在「借用」,而是尝试去「理解」和「转译」。它没有把重点放在展示一个奇观化的东国,而是去捕捉那个时代一种共通的情绪——经济泡沫下的虚假繁荣与落幕时的集体感伤。它所探讨的「物哀」,也并非东国独有,而是一种能让所有文明背景下的玩家都能体会到的、关于「美好事物终将逝去」的无常感。

最好的「文化挪用」是找到文化中最能引发普世共鸣的内核,然后用自己的方式,把它讲给更多人听。

这方面其实和原神有些类似。之前也有挺多人批评说《原神》对于各种文化往往只是选取了它的一些文化标签,用这些标签,或者说这些刻板印象,来表达它的故事。

实际上,当我们深入它的剧情,抛开那些低幼的成分不谈,实际上它所渲染的更多的是一种该种文化所处的一种情境,一种 context。它不是要用这些标签来显示它借用了某种文化,而更多的是要用这些标签辅助于它讲一个符合该种文化的故事。

剧情的问题

但话说回来,虽然「墟」在文化层面做得比较出色,它在具体的剧情和人物上,还是暴露了一些老问题。

这种问题主要集中在澪和更纱身上。澪还好,人物的动机是说得通的,但整个角色弧光给人的感觉就是不完整,缺乏足够的铺垫让她的人物转变变得可信。而更纱则是一个彻头彻尾的「机械降神」,她的出现过于突然,轻易就解决了核心矛盾,这种写法虽然方便,但也让整个故事的严谨性大打折扣,给人一种编剧为了解决问题而强行安排一个工具人的感觉,和之前「离解复合」里普瑞赛思那种「为了有反派而反派」的问题有异曲同工之妙。

总而言之,「墟」是一次非常大胆且成功的尝试。它在主题和氛围上达到的高度,足以让它成为今年我最喜欢的活动之一。人物塑造上的瑕疵虽然可惜,但也可以看作是为后续的东国故事埋下的伏笔。

语音转文字正在改变我们的生活——兼简要横评市面上的语音转文字笔记软件

自从 Whisper 模型出现以来,语音转文字就成了我的写作流程中非常重要的一环,之前也写过一些文章分享了 AI 语音转文字的一些用法。而随着越来越多人开始使用语音转文字、越来越多相关的软件出现,这一「便捷」的输入方式也为越来越多人所熟知。在以前文章中也提到过,人工智能可能对人类社会生活方式造成许多改变,包括日常创作、人际交往乃至工作方式都迎来了诸多变化。最近我发现,这些变化已切实地体现在我身上。

近期写作上的一些变化

以前写文章的时候,我通常是有想法就直接用手机打开 Flomo 记录灵感,有空时在就随便找个咖啡店、或者在高铁、飞机上用iPad上打字成文。但最近在记录灵感时,我越来越多地通过语音来记录了,而使用语音时,出于「语音尴尬症」等原因,下意识地会避免利用一些在公共场合的零散时间进行片段的输入。更多是希望能找到一个相对空闲的时间、相对独立的地点,用语音来完成整体草稿的撰写。

这其实和我一开始想的「语音有利于片段化的输入」这一想法出现了很大的区别,也引发了进一步的思索——语音输入和键盘输入的区别到底有哪些,而语音输入对我们又会产生什么样的影响。

语音输入 vs. 键盘输入

思维模式

如果用一个简单的比喻来描述什么是键盘输入和语音输入,以及他们之间的区别,文字输入其实有点像我们是在一块砖一块砖地来「建一座房子」。在这个过程中,我们可以随时停下来审核结构,发现不满意的地方就拿掉,然后重新垒上,同时,我们可以交替着在多个地方开始垒墙。这个整个过程是异步、非线性的过程。在这个过程中,我们会经常需要做修改、拼接等等。经常写作的人也会有这种感受,我们会对每一个句子、每一个段落、每一个词进行琢磨,当我们写完一句话时会回头看看,删掉几个字,或立刻做出修改。

相比之下,语音输入更像一条「河流」。思想如水流,说出的话直接奔涌向前。我们无法让河流暂停,回到上游修改水流,只能保持它从头到尾流动。这过程同步且线性,需要不受打扰的环境。

为何会有这种差异?一个原因是认知摩擦力不同。打字时,我们经历思考、选词造句、寻找按键、拼写,然后看到文字出现,整体是一条很长的链条。语音输入则更容易进入心流状态,因此我们希望有个不受打扰的环境,一旦进入状态就不停下。写作时注重的会是思维的连贯表达,而非单个词语的完美与否。

同时,打字和语音输入调用的思维模式也不同。书面写作偏向逻辑结构和分析,讲述则偏向故事思维。讲故事追求连贯完整,写作的逻辑思维则完全不同。

我们并非说河流模式一定比建筑模式好,或更代表时代发展方向。相反,这是每个创作者面临的取舍。

效率

语音转文字技术对写作最直观、最可量化的影响,毫无疑问在于对效率的颠覆性提升。人类说话的速度远超打字,那自然,只要有足够的内容储蓄,能够维持输出强度,那么自然在相同的时间下,就能够输出更多的文字。不过需要注意的一点是,语音转文字也导致了编辑负担的转移。在起草阶段所节省的时间,一定程度上被转移到了编辑阶段。

正如上文所说,口述生成的初稿往往是未经加工的「原材料」,需要大量重写和结构调整才能成为合格的书面语。因此,语音转文字带来的生产力提升,其实并非简单地缩短了总时间,更多是重构了时间分配。

对于那些在编辑上比较苦手的人来说,实际上可能并不能减少他们总的输入时间。而真正的效率提升,属于那些能够成功适应新的两阶段工作流程,并掌握相应编辑技能的写作者。

对文字本身的影响

语音转文字技术对写作带来的转变远不止于效率,它也在潜移默化地改变文字本身的特质。

既然文字来源于口语,那写作出来的文本也自然会更加倾向于对话式的风格。这种风格在某些博客、介绍性文章中自有其优势,能营造出一种亲切、自然的氛围,但若讲述者本身不擅长讲故事,则有可能会囿于流水账的困境。

这也就引出了语音转文字所带来的潜在问题,即会导致行文冗长、结构松散。在我的语音转文字写作中就经常出现这个问题, 由于思考和写作是同时进行的,而人在思考的时候会不自觉地重复自己的观点,以保证逻辑的连贯性。当这种思维落在纸面上,就很容易会出现大段的重复。

影响不止于写作?

语音转文字所带来的影响不只局限于写作,它对于我们人与人之间的沟通,乃至于人与生活之间的互动都会带来很大的改变。

人和人之间的沟通模式

举个例子,语音转文字对工作中人与人之间沟通就会有很大的影响。以前当我们开会时,除非额外注明有人来专门做会议纪要,不然很多时候会议的内容是无法追踪的,人们相对而言就可以更加畅所欲言一些。而随着语音转文字技术的运用,所有的会议都可以留痕,这也就导致人们在线会议时会更加谨慎,更加注重自己的措辞,对于自己所抒发的内容会有更多审慎的考虑,会避免随意输出可能对自己或他人不利的内容。

这一方面使得同事与同事或者说不同部门之间的沟通变得愈发困难,但在某种程度上也增加了线下人与人之间沟通的重要性。在工作中,人们可能更加会倾向于线下的会议,或者说在茶水间等非正式场合的碰面。所以说,语音转文字技术在工作中可能会导致地理位置相近的人之间的关系变得更加紧密,而对于位置相对较远的人而言,反而会加深他们之间的隔阂。

人和社会之间的交互

语音输入正在重塑人们执行日常任务的方式,培养了新的行为习惯和用户期望,例如,人们期待技术能够提供即时、准确和个性化的响应 。然而,这种行为转变也面临障碍,包括用户对设备全部功能认知不足,以及在公共场合使用语音命令的社交尴尬感 。

而对于人与社会,以及人与社会中的一些事物的交互而言,也带来了很多的改变。语音转文字的效率大大优于传统的写作,人们在工作中也会更加依赖语音转文字,这就导致了人们工作范式的一定改变。很明显,在那些所有人坐在一个场合进行工作的场景下,语音转文字可能并不适用。人们会避免自己的隐私被探听,同时也担心会影响到别人。因此,在工作场所里,人们可能会需要更多个人的空间,或者更多可以短暂使用的个人空间,如电话间等。而这也同时进一步导致了人们工作节奏的加快。由于信息产生和处理速度的提升,人们的工作压力也会进一步增加,并且也会要求人们掌握更多的语音输入技巧。由于语音天生是流逝的,它也会要求人们学会怎样说出结构化的内容,这对人们的思维模式的要求其实更高了。

对社会的深层影响

而对社会交互的深层影响而言,优点自然在于,它在功能上进一步增加了信息的民主化程度。由于不善于打字的人也因此能够更加轻松地创作内容,在一定程度上降低了内容创作的门槛,同时也为那些文盲、不擅长书写打字,或者有手部残疾的人提供了一个相对公平的表达渠道。

而对于文化而言,语音转文字带来的可能更多是一些负面影响。相对而言,社会公平虽然在一定程度上缩小了阶级之间的不公平,但是对于不同语言、不同族群人之间的公平程度反而有可能是一种放大。那些使用少数语种或者有特殊口音的人会因此丧失快速输出的机会,和主流人群之间的差距会进一步扩大。而且语音转文字在主流语言上的优势也会随着语料增加而进一步增加,一些地方语言很有可能会加速消亡。当然,这里面也有一些反例,人工智能也可以用来保护或识别一些比较古老的语言,这取决于人们如何使用人工智能技术。

第三个变化更多在于认知模式上,人们通过语音随时记录想法,这改变了大脑处理信息的方式,就像我们之前所说的「建筑」和「流水」之间的区别。这长期对于人们的思维方式也会有负面影响,一旦人们习惯于随时随地记录自己的语音,自然的记忆能力反而可能会被削弱。

简要横评常见的语音转文字软件

下文会对我使用过的一些语音转文字软件进行一些简单的评述。特此声明,我仅评测我付费使用过的产品,且不打总分,因为不同维度对不同人来说有着完全不同的权重。篇幅所限,每个软件仅作简单评述,如有需要详细介绍,可以在评论区留言,后期有时间了可能会写更详细的文章。

语音+笔记

TL;DR

AudiopenVoicenotes闪念贝壳FlomoDinox
价格早鸟⭐⭐⭐⭐⭐订阅⭐买断⭐⭐⭐⭐订阅⭐⭐⭐⭐⭐买断⭐⭐⭐订阅⭐⭐
UI/设计⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
输入便捷度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
AI 能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
上传录音⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
集成能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
附加功能⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
开发者能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
未来预期⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Audiopen

在所有语音转文字笔记软件中,Audiopen 应该是最早出圈的一个产品。早在2023年它就诞生了,作者从来没有编程经验,通过 vibe coding 创造了这款产品。

由于它当时昂贵的定价,也激起过一些讨论。Audiopen的 UI 以及语音转文字的准确度在所有产品中都是最佳的。去年,它也开发出了 app 端,在易用程度上也很优秀。它的后端集成做得也挺好,可以自动把转录及AI修改好的内容发送到 Notion,或通过 webhook 发动到其他自己想要管理的软件之中。综合来看,作为这个行业里的先驱,除了价格较贵之外,没有什么值得吐槽的问题。

Voicenotes

如果你错过了 Voicenotes 早期的 50 美元早鸟价买断的话,那这可能是语音转文字笔记软件用户最大的遗憾之一。

Voicenotes 在所有笔记软件中可以说是综合了价格、 UI、设计逻辑、后期的集成等最好的一个产品。Voicenotes 的设计非常克制且优雅,无论是极简的设计还是对于 AI 改写的克制,在使用便捷度上是首屈一指的。

它既支持在 App 中进行转录,也支持上传语音文件进行转录。除此之外,Voicenotes 还支持通过一个叫 Pages 的功能来把自己的语音转文字发布出去,形成自己一个非常微型的博客。我也把它作为我个人博客的一个补充,记录一些我个人的日常闪念。同时,它也支持 AI 问答等功能。

值得一提的是,Voicenotes 的作者是 Buy me a coffee 的作者,因此信誉度相对可靠,暂时不用担心跑路。

综合下来,Voicenotes 是我在所有笔记软件中使用语音转文字的频率最高的。而且它同时支持网页端、手机端以及苹果手表端的输入,这让它的使用场景得到了大大的拓展。近期,它也更增加了在桌面端的快捷输入,并且更加扩展了它自己的使用场景。

闪念贝壳

闪念贝壳其实是先在海外做起来之后才拓展到国内的,在外区它的名字叫 Ideashell。作者不愧是设计出身,它的外观设计非常优美,UI也很简洁美观,对颜值党来说用着非常舒服。

而另外一个特色则是它与其他各种软件的集成。打开软件(或通过小组件/action button),录入一段语音,生成的内容,可以被非常便捷地立刻发送到包括从微信、提醒事项到 Notion、Obsidian、熊掌记、Craft、滴答清单、Day One等一系列笔记软件中去,在操作的便捷度上毫无疑问是在所有软件中最佳的。

此外,闪念贝壳支持上传录音文件进行转录,并且支持区分不同发言人,这个功能常被我用于临时会议记录。

Dinox

如果说闪念贝壳是典型的设计师作品,那么 Dinox 则是典型的工程师作品。

如果要论各种与 AI 相结合的功能最齐全、设置最复杂的产品,Dinox 非他莫属。它支持从语音转文字到后续的结构化处理、相关笔记、AI 聊天等一系列功能,甚至还支持手机端检测存储,并且包括 S3 等不同的对向存储。

可以说,所有你能设想的与笔记相关的功能在 Dinox 都有。但自然,缺点也是存在的:它的操作设置过于复杂,入门相对较为困难,且当前阶段 bug 较多;在美观上与其他几款产品相比略有缺失。同时,由于作者想法很多,整体作品割裂感比较强,并没有一个明确的产品特质。

但是,作者的更新频率以及响应速度非常之快,几乎每隔几天就有一个新版本,可以说是未来可期的一个选择。

Flomo

其实早在 AudioPen 流行之后,我就和少楠提过在笔记软件中加入语音转文字的想法。但当时他们觉得需要先研究语音转文字是不是一个笔记软件的刚需,以及如果真的加入了,如何进行最符合他们产品逻辑的设计,谁料这一研究就是两年。

对于他们这个解释,一开始我和其他挺多人一样,觉得他们只是出于成本考虑而拒绝做出一些新的尝试。也因此,我尝试了其他挺多速记软件。

几个月前,Flomo 终于加入了语音转文字。并且我也很欣慰地看到他们确实在里面融入了自己的想法。相比于那些着重于语音输入后,对笔记进行很多基于不同prompt调整的软件而言,Flomo 不支持自定义prompt(对不少人来说这是个缺点),非常注重写作者原来的结构,仅去除了一些常见的口辟等。

这其实也和我对于笔记的看法不谋而合。之前我也尝试过通过很多预先设置好的 prompt 来对自己的语音输入进行大幅度修改,但最后却发现这些修改过的笔记虽然看起来更加精致,但很多情况下并不能反映我自己的原意。亦或者,当我事后回顾的时候,总感觉这些笔记有些陌生。正如少楠和Lightory 想传递的笔记理念,只有那些在我们用自己的理解记下来的内容,才是我们当下最真挚的表达。我们自己通过思考来进行的重新编辑,也能让我们对自己的笔记有更深刻的印象。

此外,这半年支持的 AI 搜索和最近引入的 AI 洞察也很有想法,能帮助用户发现笔记和笔记之间的关联——虽然 Voicenotes和Dinox也支持类似的功能,但从易用程度以及完成度上来看,后两者只能称得上有这个功能,远远不算好用。

说了这么多,Flomo 当然也有一些问题,比如说他的语音笔记最长只能支持五分钟,对生成的内容会进行自动审核,替换掉一些不当语句,并且不支持同步到其他软件等。但从使用的易用性上,以及语音转文字这一功能本身的实现的完成度上,Flomo 还是做得很好的。

其他:Get笔记、即我笔记、Reflect、Tana、Workflowy等

这里提到的这些笔记软件并不代表市面上所有支持AI语音转文字的软件,还有几款可以简单提一下。

如果把市面上的语音转文字软件分成两类,一类可以算是所谓的「AI 原生」笔记软件,另一类则是「AI+」笔记软件

其中,Get笔记和即我笔记,以及这两年在即刻、小红书上各种独立开发者各种宣传的层出不穷的新软件大都是在AI语音转文字出现之后而诞生的。他们在从初始阶段就兼顾到了语音转文字的开发,但因为我使用的不多,也建议大家去找其他的评测。

而后面提到的这几款Reflect、Tana、Workflow则是基于已有的笔记软件的基础上,把语音转文字融入他们的工作流。其中,Tana毫无疑问是其中做得最好的一款。AI 已经成为其完整工作流中的一环。它既支持会议的转录,也支持日常的手机端以及电脑端的语音输入。此外,Tana还能在输入之后用AI对语音转文字的内容进行进一步修改,自定义化非常强。

但由于这几款都需要比较昂贵的订阅费,在性价比上,如果只是把它作为语音转文字软件而言,相对会比较低。不过,如果能把它们与自己的工作流结合起来,或者作为自己的知识库所在,那是可以考虑的选择。

语音转录输入法

桌面端的语音转文字输入法也有不少选择,最主流的包括 Superwhisper、Wispr Flow等,甚至 Voicenotes 近期也推出了 Mac 端的输入法软件,只需按住快捷键,就能直接把语音转文字输入到当前的文本框内。

由于我日常输入不依赖于 Mac,对这方面没有很深的研究,可以参考Edison的这篇文章来了解更多的细节 https://linux.do/t/topic/833194。

语音输入是 AI 时代的唯一正解吗?

语音转文字软件确实加快了我单一文稿撰写的速度,例如这篇文章有 50% 的部分是通过语音输入完成的初稿。但回头看来,寻找具有仪式感的环境进行语音输入这一行为反而对我创作构成了新束缚。

以前我能在等地铁、午休时花几分钟,用手机或iPad快速写出文章一部分。然而习惯于用语音写初稿之后,我的零散输入时间反而变少了。

未来创作中我可能需要区分不同类型文字,采取不同写作方式。对偏向故事型、记录型的内容,使用语音可能更方便;对偏向书面信息的写作,找个安静地方写可能更好。更或者,在大部分情况下,我都会更加倾向于用打字的方式来进行写作。因为无论是在摘录闪念,亦或是在长篇梳理自己想法的时候,这种字斟句酌的输入方式都更有利于我理清自己的思路。并且,它能更加有一种创作的真实感以及仪式感。毕竟,有时候仪式感本身也是创造力的来源之一。

而对于每个创作者以及记录者而言,根据自己所处环境、惯用设备而选择最适合自己的创作方式,是每个创作者都需要面临的课题

为什么塔勒布的“最不宽容者获胜”在AI时代不管用了?

2018年,欧盟 GDPR 的实施掀起了全球数据保护的新浪潮。这部被称为”史上最严格数据隐私法”的法规不仅改变了欧盟境内的数据处理规则,更通过”布鲁塞尔效应”,将其影响力扩展到全球范围。然而,当欧盟试图将这种监管模式复制到人工智能领域时,情况似乎有了微妙的变化。

2023年12月,欧盟就 EU AI Act 达成初步政治协议,标志着全球首个综合性AI监管框架的诞生。这一时刻让人不禁想起2015年12月GDPR文本达成一致的场景。然而,与GDPR相比,AI法案面临的挑战似乎更为复杂,科技巨头的反应也更加激烈。

什么是“最不宽容者获胜”?

最简单的例子,为什么前些年,我们发现,越来越多的产品、越来越多的饭店开始贴着清真认证标签?答案在于一个简单的不对称性:穆斯林消费者只能吃清真食品,而非穆斯林消费者可以吃清真食品。

当穆斯林人口达到一定比例,或者占有一定舆论声量的时候,食品生产商面临一个选择:要么生产两条产品线,要么统一采用清真标准。由于清真认证的额外成本相对较低,而维护两条生产线的成本较高,理性的选择是统一采用清真标准。

这就是”最不宽容者获胜”的精髓:当转换成本较低时,整个系统会向最严格的标准倾斜。

放在现实生活中,则体现为当一个坚定不妥协的少数群体与一个较为灵活的多数群体相遇时,整个系统往往会向少数群体的偏好倾斜。

GDPR:理论的初步验证

GDPR的实施过程似乎验证了塔勒布的理论。作为”不宽容的少数群体”,欧盟通过GDPR设定了严格的数据保护标准。尽管科技巨头最初表示担忧,认为需要大规模调整政策和程序,但最终还是选择了合规。

这种合规不仅仅是因为高额罚款的威胁(最高可达全球年营业额的4%),更重要的是,维护多套数据处理系统的成本远高于统一采用GDPR标准。结果是,许多公司不仅在欧盟市场采用GDPR标准,更将其推广到全球业务中。这就是所谓的”布鲁塞尔效应”——欧盟的监管标准成为了事实上的全球标准。

AI法案:理论的滑铁卢?

然而,当欧盟推出AI法案时,科技巨头的反应却截然不同。与GDPR时期相比,它们对AI法案表现出更为强烈和一致的反对态度。这种差异化的反应背后究竟隐藏着怎样的逻辑?

GDPR主要被视为一项数据治理和隐私合规的挑战。它规范了数据处理方式,但并未从根本上改变科技公司的商业模式。相比之下,AI法案被认为直接触及了AI技术的核心——它不仅规范了数据如何使用,更涉及可以用数据构建什么,以及谁对其效果负责。

对于GDPR,大型科技公司虽然面临高昂的合规成本,但也从中获得了意外的战略利益。GDPR的复杂性为小型竞争对手设置了准入门槛,从而巩固了大型企业的市场地位。这种”二阶效应”影响了它们的决策逻辑。

而AI法案则不同。科技巨头认为,这项法案可能会从根本上威胁其在AI领域的领导地位和未来增长潜力。它们担心严格的监管会削弱欧洲AI模型的竞争力,甚至可能将市场份额让给其他地区的竞争对手。

相似表象下的本质差异

要理解这个谜题,我们需要深入到细节中。GDPR和EU AI Act看似相似,实则有着根本性的差异。

首先是合规的确定性问题。GDPR的要求相对明确:获取用户同意、提供数据删除选项、确保数据安全等。虽然实施起来繁琐,但至少企业知道该做什么。相比之下,EU AI Act充满了模糊地带。什么算”高风险AI应用”?如何证明一个深度学习模型是”可解释的”?当技术本身还在快速演进时,如何制定固定的合规标准?

更关键的是对核心业务的影响程度。GDPR主要改变的是数据处理流程——你仍然可以做社交网络,仍然可以投放广告,只是需要先获得用户同意。它就像是给汽车加装安全带,麻烦但不影响汽车的本质功能。而EU AI Act直接触及产品的核心。它可能要求你的AI模型必须是可解释的,但对于依赖深度神经网络的现代AI来说,完全的可解释性在技术上可能根本无法实现。这就像要求汽车必须能够飞行——不是改进,而是改变本质。

谁是”最不宽容者”?

在GDPR的案例中,欧盟作为”不宽容的少数群体”,成功地将其数据保护标准推广到全球。然而,在AI法案的博弈中,局面变得更加复杂。

一方面,欧盟仍然试图扮演”不宽容者”的角色,坚持其对AI的伦理和安全标准。另一方面,科技巨头在捍卫其核心利益和创新自由时,也表现出了极高的”不宽容”程度。它们通过密集的游说活动、公开表态,甚至威胁撤出欧洲市场来表达立场。

这场博弈的结果可能不会是一方的完全胜利,而是一个反映多方相对力量的复杂妥协。塔勒布的理论在这里提供了理解影响力动态的视角,但现实世界的结果往往更加微妙。

时间窗口的不同

2018年和2024年的科技产业格局已经大不相同。当GDPR推出时,数据确实重要,但还不是生死攸关的问题。失去一些数据收集能力令人痛苦,但不会让Facebook或Google失去竞争优势。那时的数字经济已经相对成熟,需要的是规范而非突破。

但2024年的AI竞赛完全是另一回事。我们正处于AI革命的早期阶段,每个月都有突破性进展。在这个时刻被监管束缚手脚,可能意味着永久性地落后。更重要的是,中美AI竞争的大背景让一切变得更加复杂。当你的中国竞争对手可以不受限制地开发AI,而你却要满足各种”可解释性”要求时,这种劣势可能是致命的。

成本结构的差异也值得深思。GDPR的合规成本虽然高昂——大公司可能需要花费数百万欧元进行技术改造和法律咨询——但这是一次性投入加上可预测的维护成本。企业可以制定预算,分配资源,然后继续前进。

EU AI Act的成本却充满不确定性。不仅是金钱成本,更是机会成本。当你为了满足”可解释性”要求而不得不使用较简单的模型时,你失去的创新机会如何量化?当你的竞争对手推出了更强大的AI助手而你还在等待合规审查时,市场份额的流失如何计算?这种不确定性让企业难以做出理性的成本收益分析。

道德制高点

还有一个常被忽视的因素:公众认知。GDPR打着保护隐私的旗号,容易获得道德制高点。即使是最激进的科技公司也很难公开反对保护用户隐私。但AI监管不同。限制AI发展很容易被框定为”阻碍进步”、”扼杀创新”。在一个将技术进步视为信仰的时代,这种叙事对监管者不利。

谁掌握了权力?

更深层的变化在于权力结构的演变。在清真食品的案例中,个体消费者没有议价能力。但在AI时代,科技巨头掌握着一张王牌:退出威胁。当苹果说”我们不在欧盟发布AI功能”时,受损的不仅是苹果,还有数百万期待新功能的欧洲iPhone用户。当足够多的科技公司做出同样选择时,压力开始转向监管者。

这种动态在GDPR时代并不明显,因为没有公司真的敢完全退出欧盟市场。但在AI时代,”功能性退出”成为可能——你仍然在欧盟销售产品,只是不提供最先进的AI功能。这种策略既避免了完全退出的极端后果,又对监管者施加了压力。

如果我们用博弈论的语言来描述,GDPR时代的博弈相对简单:遵守规则失去一些数据优势但保住市场,不遵守则失去整个欧盟市场。选择显而易见。

但AI Act创造了一个更复杂的博弈。遵守可能意味着在全球AI竞赛中永久落后,不遵守只是暂时失去部分欧盟市场功能。当长期的技术领先地位和短期的市场准入发生冲突时,越来越多的公司选择了前者。

未来呢?

有趣的是,这个故事还远未结束。GDPR刚推出时也曾遭遇强烈反对,但最终大多数公司还是选择了合规。EU AI Act是否会重演这个剧本?

可能的情景包括:监管者和企业最终达成某种妥协,出现”欧盟特别版”的AI产品;或者欧盟坚持立场,导致欧洲在AI时代进一步边缘化;又或者,其他地区跟进欧盟的监管思路,最终形成全球统一标准。

没有放之四海而皆准的社会理论。塔勒布的”最不宽容者获胜”在特定条件下确实成立——当转换成本较低、参与者权力不对称有利于”不宽容者”、没有可行的退出选项时。

但当这些条件改变时,当”宽容者”变成了拥有议价能力的科技巨头,当转换成本高到令人却步,当退出成为可信威胁时,理论的预测就需要修正。

更重要的是,时机至关重要。GDPR来得正是时候——数据经济已经成熟,需要的是规范。而AI Act可能来得太早——当技术仍在快速演进时,过早的规范可能扼杀创新。这就像在莱特兄弟刚发明飞机时就制定详细的航空安全法规,结果可能是飞机永远无法起飞。

从更宏大的视角来说,当我们谈论清真食品时,我们在讨论消费选择。当我们谈论GDPR时,我们在讨论隐私权利。但当我们谈论AI监管时,我们在讨论人类的未来,即,谁将主导下一次技术革命,以及这场革命将如何展开。