AI 录音硬件是个伪需求吗?(Plaud Note Pro 购买复盘)

自从以 Plaud 为首的 AI 录音软件在国际市场崭露头角,越来越多的人开始关注这个领域,也有越来越多的厂商进入这个赛道。尽管社交平台上不乏质疑声,但至少这是个逐渐升温的市场。

我的探索历程

最初,我在 2022 年底发现了 Rewind(现已更名为 Limitless)。它推出了一款名为 Pendant 的颈挂式智能硬件,号称可以记录生活中的所有输入。我第一时间预订了这款产品,但它经历了一次又一次的跳票,直到今年才大规模发货。而我在 2024 年就已经取消了预订。

期间,我也尝试过传统大厂的产品,走了不少弯路,比如购买 DJI Mic Mini 来充当录音笔。最终,当 Plaud 这款相对昂贵的产品进入我的视野时,我立刻被它的颜值和功能吸引,果断入手。

起初我想买海外版,也看了很多评测。就在准备下单前一天,Plaud 上新了 Plaud Note Pro,我按捺住了冲动。一周后,Plaud 宣布在国内上市。我曾纠结于国内版和海外版的选择——海外版可以使用国外模型,而国内版因合规要求只能使用国内模型。综合考虑后,我最终选择了国内版,将其作为录音硬件使用,搭配自己订阅的 Gemini 模型。

AI 录音软硬件是真需求吗?

回到核心问题:AI 录音软硬件是否是刚需?我们可以从两个维度来理解这类产品的定位:

  • 便携录音笔
  • AI 场景入口

我需要一个便携录音笔吗?

从第一个维度看,经过实际体验,答案毫无疑问是**「要」**。

主要原因在于,手机虽然是最方便的录音工具,录音效果也不错,但它会被随时占用。长时间录音时,录音功能很容易被其他软件抢占,导致录音暂停,甚至后台被杀,无法保存录制内容。

与此同时,我有一个常见的需求:日常通勤或晚上锻炼时,我经常骑电动车或公路车,时长半小时到一小时。这期间,我会戴着一只 AirPod。

由于苹果系统的限制,戴着耳机时,录音系统会自动选择最后接入的设备作为麦克风。也就是说,戴上耳机后开始录音,耳机的麦克风就会成为默认选项。

AirPods Pro 的麦克风质量远逊于手机自带麦克风,尤其在通勤和骑车场景下,风声和周围噪音会让录音几乎无法使用。

这种场景下,一个既能便携地吸附在手机背面、又能独立分拆的麦克风,自然成了我的需求之一。

另一个场景是:在外听讲座或参加快速会议时,拿出手机录音显得很不礼貌,也容易遭人拒绝。而吸附在手机背后的麦克风,影响程度会小得多。

这也是我没有选择 Plaud Note Pin 这类装饰型产品的原因——装饰虽小,但仍然显眼,一旦被认出来就会很尴尬。

我需要一个硬件产品作为 AI 场景入口吗?

答案是需要,但 Plaud Note Pro 并不是我理想中的产品。

之前我也看过 Plaud 创始人许高以及莫浩宇在博客访谈中的分享。他们并未将 Plaud 定位为单纯的硬件公司,而是希望通过积累用户日常生活中的上下文数据,让人们逐渐依赖 Plaud 及其背后构建的生态数据库。

但对我而言,我是否愿意将所有上下文、所有 context 都托付给 Plaud?至少目前,答案是否定的。我的上下文不仅包括日常语音,还涵盖各种剪藏、快捷输入、主动记录的笔记,以及日常的存储数据库等。Notion(结合 Notion AI)是我这半年来最主要的个人场景整合工具之一,这点我会在之后关于生产力系统的文章中详细说明。

在这种情况下,我显然不希望将所有数据都绑定在 Plaud 这个产品内。这也是我选择 Plaud 国内版而非国际版的原因。使用国际版意味着需要支付更多费用来获取最优模型,而它自己的 APP 目前使用体验还比较差。因此,我倒不如只使用它最基础的语音转文字功能,提取出转写文稿。

我用当前最好的大模型——我订阅的 Google Gemini 2.5 Pro,来对这些语音转文字素材进行总结,再录入到 Notion 中。从效率上并没有损失太多。而且即使用完本月语音转文字的配额,我还有其他买断制语音转文字产品,可以进行语音转文字转写,之后再在 Gemini 里整理。

这样,我既能获取最好的模型,达到想要的效果,同时又能保证所有内容、所有上下文都在统一的场景下得到管理。这对我而言,无疑比将所有内容都托付给 Plaud 更具吸引力。

所以,AI 录音硬件是一个伪需求吗?

对于我而言,答案很明显:并不是。而我相信,在现实世界中,有许多与我有类似需求、面对类似场景的人,同样需要 AI 录音硬件为他们的日常工作生活赋能。

然而,我需要的不是生态而是工具。

不可否认,Plaud 和 Limitless 这类公司的愿景极为宏大。可以想见,他们作为生态系统所要达成的目标,在可预期的未来是有可能实现的。然而,OpenAI 之类的公司也必然会设法抢占这一市场。而 Plaud 之类的公司在之后走向开放,比如开通更多自动化 API 功能,也许是一个思路。

这些 AI 录音硬件公司当下要做的,唯有将产品尽可能打磨至极致。就像 Plot 那样,把产品打磨成一件艺术品——继承苹果过往的美学基因,让人因设计而买单,而非仅因功能而买单。这或许是他们能够走下去的一条路径。

那么,AI 录音硬件是伪需求吗?它不是。但市场空间能有多大,取决于这些公司能看到多远,走到多远了。

博客折腾记录:Thorn – WordPress

正如之前看到很多博主所说的,每一个写博客的人,总会不免经历在不同博客平台上到处折腾的过程。曾经我也觉得自己是想要认真写一点东西的,奈何看看我在不同笔记软件和各种生产力工具之间来回折腾的「斑斑劣迹」,博客平台的折腾也迟早是一个不可避免的话题。

最早其实我尝试了几个不同的平台,从 Gridea 后来到了 Notionnext。之前也详细写了两篇文章博客和笔记软件一样,就是个不停折腾的过程博客从 NotionNext迁移到 Thorn,介绍为什么用 NotionNext,以及从 NotionNext 迁移到了 Thorn的经历。而最近我终于下定决心离开 Thorn,换一个平台。

为什么离开 Thorn?

Thorn 的几个痛点

我把博客托管放到 Thorn 也有一年时间了,先稍微总结一下之前 Thorn 让我感觉到的几个不舒服的点:

  1. 多端同步功能不稳定 – 经常出现隔段时间就需要在不同的电脑上重新登录的情况,而且文章后面总是会出现红色的小叉,让人胆战心惊;
  2. RSS 功能残疾 – 在常用的一些 RSS 客户端上基本上很难抓取到新的内容;
  3. 不能自定义字体 – 这对于我这个颜值党来说还挺致命的,无论是笔记软件还是博客网站,能自定义字体对我而言绝对是个大加分项;
  4. 发布流程比较奇怪 – 需要有一个奇怪的拖拽动作,整体的操作逻辑也并不是非常顺畅;
  5. 不支持外部图床 – 我平时使用的是腾讯对象存储,这导致我在不同平台上(思源笔记和 Notion)上的内容无法直接复制到 Thorn 里;
  6. 不支持移动端 – 手机端虽然不是强需求,但是无法在 iPad 上使用就是个硬伤了。我日常的创作大都是在 iPad 上完成,而这个缺点强行拆分了创作和发布这两个步骤,于是便时常会出现,创作完成后就,一想到要移到电脑上重新编辑,进行发布,就会感到烦躁,甚至懒得继续创作的情况。

但总体而言,Thorn 的颜值还是非常高的,而且在部署、存储、设计这些方面在大部分时候也很在线,这也是之前一直没有下定决心放弃它的原因。

那为什么最终我还是决定要放弃 Thorn 呢?

其实原因很简单:

Thorn 的更新其实停滞了有很长一段时间了。从作者那里听来的是,他之后会把精力投入到开发新产品上去,新产品会逐步取代 Thorn。但这里面就存在几个问题。

不可预测的新旧产品的过渡期

一个问题就是,Thorn 这个产品本身还是挺好用的,虽然它的多端同步功能做得比较一般,而且需要在本地下载,但至少它是个比较成熟的产品。奈何它里面也有一些 bug 一直没有得到比较好的修复,目前来看作者也并没有动力去修复它们。

新产品上线到完全继承 Thorn 的功能,肉眼可见还有挺长一段时间,并且可能要以半年到一年来计算。在此期间我不得不要忍受 Thorn 的那些不好的使用体验。

新产品的不确定性

新的产品虽然看起来功能非常强大,但是成本也很高,目前的定价是每个月 20 美元。我已经订阅了好几个笔记 / AI 产品,没有需求为它额外投入那么多的成本。此外,也不知道作者是否能在新产品上把上文提到的 Thorn 作为一个博客工具的主要问题解决。毕竟新产品看起来是一个以 AI 为主导的软件,明显作者的重点也放在了 AI 之上。

新平台的选择

既然选择了要换平台,那必然先要明确我的需求。之前无论是 NotionNext 还是 Thorn,都是相对定制好的模板,虽然可以自己选择一些主题,但自己改造的空间比较小。

其实这样看来,一开始 Notion Next 还是做得挺不错的,无论是字体还是它提供的一些主题都挺多。以后如果想要再换过去的话,可能 Notion Next 也是比较好的考虑方向。不过 Notion Next 也跟 Thorn 有一个类似的问题,就是它的 RSS 非常残疾。

最终方案:WordPress

既然要想给自己增加更多的自主权、更多的修改余地,那么实际上也就仅有两个选项了:一个是选择 WordPress,另外一个就是静态网页。

WordPress 是一个非常大众化的选择,之前也看到好几个装修得非常漂亮的 WordPress 个人博客。

其实如果代码能力比较强的话,使用静态网页也能实现类似效果。但是问题在于,我自己并不是一个有代码基础的人,而且可能也没有那么多的精力来对相关内容进行太多维护。无论是搞 Git,还是把各种内容上传到 GitHub,其实对我而言操作的成本还是挺高的。

于是综合考虑,我就放弃了 Hexo 和 Hugo 这些方案,选择直接在 WordPress 上搭建。

搭建过程

参考与选择

这里我参考了衛斯里之前在他的一篇博客中关于用 WordPress 搭建博客流程的经验。

因为我自己本身是有一个域名的,因此我就跳过了购买域名的环节。我的域名是之前在 NameSilo 上买的,主机是在 Hostinger 上购买的。

之所以不选择一些 VPS 或者是其他一些主机,主要是因为我没有什么代码知识,对于自己以后对它们的维护,或者是安全还是其他一些维护并不是很有信心,所以就暂时依靠 Hostinger 的服务吧。一买就买了 4 年,希望至少在这 4 年里能够比较稳定一点。

意外的迁移顺序

这是初期一个我没有预料到的情况。本来我想的是把所有的博文都转移好到 WordPress 上之后,再把域名切过去。但是 Hostinger 以及 WordPress 的设置和流程中会需要先把域名切过来,这样它才能比较顺畅地进行访问。

所以我干脆一不做二不休,直接就迁移了过来。之后我发现这确实是一个比较明智的决定,毕竟慢慢把文章迁过来其实花费时间并不会太久,而这样能让我比较顺畅地直接在网站上进行一些装修。最终整个迁移过程花了大约两周的时间,主要是文章得一篇篇搬家,不然时间会更短一些

博客装修

设计灵感

说到装修,我这边是参考了之前 JackAnother Dayu 的经验,尤其是 Another Dayu,我对他的博客的审美还是非常喜欢的。

虽然我对自己的博客会有一些要求,主要是喜欢放一些封面图,但整体还是比较具有一个极简的风格。这点上他们有不少值得我学习的地方。

内容分类

博客的 type 上,基于 wordpress 的博客终于实现了我一直以来想要实现的一个需求,即希望能够把博文和我自己日常的一些随想、一些摘抄能够区分开来。

在博客创作本身上,我之前尝试过周报(没坚持下来)、攒大稿子、memo 这几种不同的方式,发现都不是特别适合自己,因此还算是在继续摸索中。目前来看,短期内会考虑短中长三者同时进行的模式。

短内容

首先是设定了一个分类叫做 「Memos」,像我的一些日常摘抄,平常可能会先放到 Flomo 里,然后我会定期挑选一些值得分享的摘抄或者是自己的灵感想法,收录到 Memos 里面而不进入首页。这种一般是比较短小,或者说暂时没有什么动力来写成长文的,但是它们又相对而言比较真诚,也算是把自己的一些零散的内容做一些输出分享。而且在 Blocksy 这个主题里面,它的分类的内容展示还可以选择一些类似于瀑布流的展示方法。瀑布流的展示方法还是挺漂亮的,但这也会导致一个问题,就是其他分类内容会相应地也会呈现那种瀑布流的样式,而那些长文如果比较长的话,这个展示也会非常难看。因此对于其他每一个分类,我是选择新建页面,而不是直接展示分类内容,只展示标题和适当的摘要。

与之类似的是「Lifelog」,主要存储的是日常的一些零散日记。

专题(中长篇文章)

在我的选题库里攒了一大堆可以写成长篇的选题。而现实是,一想到要花那么长的时间精力在长篇内容上,很多时候就会丧失了开始的动力。

因此后续我会基于具体的主题,无论篇幅长短,原子化地写一些中短文,并定期写一些长篇内容。这样才能维持一定的更新频率,也能保持写作的热情。

视觉设计

说到博客本身,目前我自己选择的是思源宋体。当然这是因为我之前没有在实用的国内的 CDN 里面找到我最习惯用的几种字体。而霞鹜文楷虽然看起来不错,其实现在有点烂俗了,最终选择了思源宋体。

背景看起来是白色,其实我选择的是我在各种阅读器最喜欢的白磁。它比白色略微加一点灰度,让视觉上更不容易疲劳。

此外还加了段 css,得以在 2 级和 3 级标题下方加一条类似于 GitHub 风格的分隔线。

未来规划

除此之外,之后还考虑在博客里面加上自己的相册,放一些自己的摄影作品。可能后面看看是不是把自己的一些运动记录等等也都放上去。这些就不急,可以之后学一学 Dayu 的一些做法。

此外,之前每次写文章总是会花一些时间用 AI 生成封面图,事后看起来其实这个行为用处不大,会让首页显得杂乱。之后可能会减少用封面图的频率。

总之,迁移还在进行之中,后面可能还会对它的布局做一些进一步的更改。而且我现在才玩 Blocksy 这个主题仅仅几天时间,后面等更熟悉了可能也会有一些新的变化。

希望大家能够喜欢我这次博客的迁移。等迁移完成了,可能会再根据情况看是不是写一篇新的文章吧。

语音转文字正在改变我们的生活——兼简要横评市面上的语音转文字笔记软件

自从 Whisper 模型出现以来,语音转文字就成了我的写作流程中非常重要的一环,之前也写过一些文章分享了 AI 语音转文字的一些用法。而随着越来越多人开始使用语音转文字、越来越多相关的软件出现,这一「便捷」的输入方式也为越来越多人所熟知。在以前文章中也提到过,人工智能可能对人类社会生活方式造成许多改变,包括日常创作、人际交往乃至工作方式都迎来了诸多变化。最近我发现,这些变化已切实地体现在我身上。

近期写作上的一些变化

以前写文章的时候,我通常是有想法就直接用手机打开 Flomo 记录灵感,有空时在就随便找个咖啡店、或者在高铁、飞机上用iPad上打字成文。但最近在记录灵感时,我越来越多地通过语音来记录了,而使用语音时,出于「语音尴尬症」等原因,下意识地会避免利用一些在公共场合的零散时间进行片段的输入。更多是希望能找到一个相对空闲的时间、相对独立的地点,用语音来完成整体草稿的撰写。

这其实和我一开始想的「语音有利于片段化的输入」这一想法出现了很大的区别,也引发了进一步的思索——语音输入和键盘输入的区别到底有哪些,而语音输入对我们又会产生什么样的影响。

语音输入 vs. 键盘输入

思维模式

如果用一个简单的比喻来描述什么是键盘输入和语音输入,以及他们之间的区别,文字输入其实有点像我们是在一块砖一块砖地来「建一座房子」。在这个过程中,我们可以随时停下来审核结构,发现不满意的地方就拿掉,然后重新垒上,同时,我们可以交替着在多个地方开始垒墙。这个整个过程是异步、非线性的过程。在这个过程中,我们会经常需要做修改、拼接等等。经常写作的人也会有这种感受,我们会对每一个句子、每一个段落、每一个词进行琢磨,当我们写完一句话时会回头看看,删掉几个字,或立刻做出修改。

相比之下,语音输入更像一条「河流」。思想如水流,说出的话直接奔涌向前。我们无法让河流暂停,回到上游修改水流,只能保持它从头到尾流动。这过程同步且线性,需要不受打扰的环境。

为何会有这种差异?一个原因是认知摩擦力不同。打字时,我们经历思考、选词造句、寻找按键、拼写,然后看到文字出现,整体是一条很长的链条。语音输入则更容易进入心流状态,因此我们希望有个不受打扰的环境,一旦进入状态就不停下。写作时注重的会是思维的连贯表达,而非单个词语的完美与否。

同时,打字和语音输入调用的思维模式也不同。书面写作偏向逻辑结构和分析,讲述则偏向故事思维。讲故事追求连贯完整,写作的逻辑思维则完全不同。

我们并非说河流模式一定比建筑模式好,或更代表时代发展方向。相反,这是每个创作者面临的取舍。

效率

语音转文字技术对写作最直观、最可量化的影响,毫无疑问在于对效率的颠覆性提升。人类说话的速度远超打字,那自然,只要有足够的内容储蓄,能够维持输出强度,那么自然在相同的时间下,就能够输出更多的文字。不过需要注意的一点是,语音转文字也导致了编辑负担的转移。在起草阶段所节省的时间,一定程度上被转移到了编辑阶段。

正如上文所说,口述生成的初稿往往是未经加工的「原材料」,需要大量重写和结构调整才能成为合格的书面语。因此,语音转文字带来的生产力提升,其实并非简单地缩短了总时间,更多是重构了时间分配。

对于那些在编辑上比较苦手的人来说,实际上可能并不能减少他们总的输入时间。而真正的效率提升,属于那些能够成功适应新的两阶段工作流程,并掌握相应编辑技能的写作者。

对文字本身的影响

语音转文字技术对写作带来的转变远不止于效率,它也在潜移默化地改变文字本身的特质。

既然文字来源于口语,那写作出来的文本也自然会更加倾向于对话式的风格。这种风格在某些博客、介绍性文章中自有其优势,能营造出一种亲切、自然的氛围,但若讲述者本身不擅长讲故事,则有可能会囿于流水账的困境。

这也就引出了语音转文字所带来的潜在问题,即会导致行文冗长、结构松散。在我的语音转文字写作中就经常出现这个问题, 由于思考和写作是同时进行的,而人在思考的时候会不自觉地重复自己的观点,以保证逻辑的连贯性。当这种思维落在纸面上,就很容易会出现大段的重复。

影响不止于写作?

语音转文字所带来的影响不只局限于写作,它对于我们人与人之间的沟通,乃至于人与生活之间的互动都会带来很大的改变。

人和人之间的沟通模式

举个例子,语音转文字对工作中人与人之间沟通就会有很大的影响。以前当我们开会时,除非额外注明有人来专门做会议纪要,不然很多时候会议的内容是无法追踪的,人们相对而言就可以更加畅所欲言一些。而随着语音转文字技术的运用,所有的会议都可以留痕,这也就导致人们在线会议时会更加谨慎,更加注重自己的措辞,对于自己所抒发的内容会有更多审慎的考虑,会避免随意输出可能对自己或他人不利的内容。

这一方面使得同事与同事或者说不同部门之间的沟通变得愈发困难,但在某种程度上也增加了线下人与人之间沟通的重要性。在工作中,人们可能更加会倾向于线下的会议,或者说在茶水间等非正式场合的碰面。所以说,语音转文字技术在工作中可能会导致地理位置相近的人之间的关系变得更加紧密,而对于位置相对较远的人而言,反而会加深他们之间的隔阂。

人和社会之间的交互

语音输入正在重塑人们执行日常任务的方式,培养了新的行为习惯和用户期望,例如,人们期待技术能够提供即时、准确和个性化的响应 。然而,这种行为转变也面临障碍,包括用户对设备全部功能认知不足,以及在公共场合使用语音命令的社交尴尬感 。

而对于人与社会,以及人与社会中的一些事物的交互而言,也带来了很多的改变。语音转文字的效率大大优于传统的写作,人们在工作中也会更加依赖语音转文字,这就导致了人们工作范式的一定改变。很明显,在那些所有人坐在一个场合进行工作的场景下,语音转文字可能并不适用。人们会避免自己的隐私被探听,同时也担心会影响到别人。因此,在工作场所里,人们可能会需要更多个人的空间,或者更多可以短暂使用的个人空间,如电话间等。而这也同时进一步导致了人们工作节奏的加快。由于信息产生和处理速度的提升,人们的工作压力也会进一步增加,并且也会要求人们掌握更多的语音输入技巧。由于语音天生是流逝的,它也会要求人们学会怎样说出结构化的内容,这对人们的思维模式的要求其实更高了。

对社会的深层影响

而对社会交互的深层影响而言,优点自然在于,它在功能上进一步增加了信息的民主化程度。由于不善于打字的人也因此能够更加轻松地创作内容,在一定程度上降低了内容创作的门槛,同时也为那些文盲、不擅长书写打字,或者有手部残疾的人提供了一个相对公平的表达渠道。

而对于文化而言,语音转文字带来的可能更多是一些负面影响。相对而言,社会公平虽然在一定程度上缩小了阶级之间的不公平,但是对于不同语言、不同族群人之间的公平程度反而有可能是一种放大。那些使用少数语种或者有特殊口音的人会因此丧失快速输出的机会,和主流人群之间的差距会进一步扩大。而且语音转文字在主流语言上的优势也会随着语料增加而进一步增加,一些地方语言很有可能会加速消亡。当然,这里面也有一些反例,人工智能也可以用来保护或识别一些比较古老的语言,这取决于人们如何使用人工智能技术。

第三个变化更多在于认知模式上,人们通过语音随时记录想法,这改变了大脑处理信息的方式,就像我们之前所说的「建筑」和「流水」之间的区别。这长期对于人们的思维方式也会有负面影响,一旦人们习惯于随时随地记录自己的语音,自然的记忆能力反而可能会被削弱。

简要横评常见的语音转文字软件

下文会对我使用过的一些语音转文字软件进行一些简单的评述。特此声明,我仅评测我付费使用过的产品,且不打总分,因为不同维度对不同人来说有着完全不同的权重。篇幅所限,每个软件仅作简单评述,如有需要详细介绍,可以在评论区留言,后期有时间了可能会写更详细的文章。

语音+笔记

TL;DR

AudiopenVoicenotes闪念贝壳FlomoDinox
价格早鸟⭐⭐⭐⭐⭐订阅⭐买断⭐⭐⭐⭐订阅⭐⭐⭐⭐⭐买断⭐⭐⭐订阅⭐⭐
UI/设计⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
输入便捷度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
AI 能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
上传录音⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
集成能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
附加功能⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
开发者能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
未来预期⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Audiopen

在所有语音转文字笔记软件中,Audiopen 应该是最早出圈的一个产品。早在2023年它就诞生了,作者从来没有编程经验,通过 vibe coding 创造了这款产品。

由于它当时昂贵的定价,也激起过一些讨论。Audiopen的 UI 以及语音转文字的准确度在所有产品中都是最佳的。去年,它也开发出了 app 端,在易用程度上也很优秀。它的后端集成做得也挺好,可以自动把转录及AI修改好的内容发送到 Notion,或通过 webhook 发动到其他自己想要管理的软件之中。综合来看,作为这个行业里的先驱,除了价格较贵之外,没有什么值得吐槽的问题。

Voicenotes

如果你错过了 Voicenotes 早期的 50 美元早鸟价买断的话,那这可能是语音转文字笔记软件用户最大的遗憾之一。

Voicenotes 在所有笔记软件中可以说是综合了价格、 UI、设计逻辑、后期的集成等最好的一个产品。Voicenotes 的设计非常克制且优雅,无论是极简的设计还是对于 AI 改写的克制,在使用便捷度上是首屈一指的。

它既支持在 App 中进行转录,也支持上传语音文件进行转录。除此之外,Voicenotes 还支持通过一个叫 Pages 的功能来把自己的语音转文字发布出去,形成自己一个非常微型的博客。我也把它作为我个人博客的一个补充,记录一些我个人的日常闪念。同时,它也支持 AI 问答等功能。

值得一提的是,Voicenotes 的作者是 Buy me a coffee 的作者,因此信誉度相对可靠,暂时不用担心跑路。

综合下来,Voicenotes 是我在所有笔记软件中使用语音转文字的频率最高的。而且它同时支持网页端、手机端以及苹果手表端的输入,这让它的使用场景得到了大大的拓展。近期,它也更增加了在桌面端的快捷输入,并且更加扩展了它自己的使用场景。

闪念贝壳

闪念贝壳其实是先在海外做起来之后才拓展到国内的,在外区它的名字叫 Ideashell。作者不愧是设计出身,它的外观设计非常优美,UI也很简洁美观,对颜值党来说用着非常舒服。

而另外一个特色则是它与其他各种软件的集成。打开软件(或通过小组件/action button),录入一段语音,生成的内容,可以被非常便捷地立刻发送到包括从微信、提醒事项到 Notion、Obsidian、熊掌记、Craft、滴答清单、Day One等一系列笔记软件中去,在操作的便捷度上毫无疑问是在所有软件中最佳的。

此外,闪念贝壳支持上传录音文件进行转录,并且支持区分不同发言人,这个功能常被我用于临时会议记录。

Dinox

如果说闪念贝壳是典型的设计师作品,那么 Dinox 则是典型的工程师作品。

如果要论各种与 AI 相结合的功能最齐全、设置最复杂的产品,Dinox 非他莫属。它支持从语音转文字到后续的结构化处理、相关笔记、AI 聊天等一系列功能,甚至还支持手机端检测存储,并且包括 S3 等不同的对向存储。

可以说,所有你能设想的与笔记相关的功能在 Dinox 都有。但自然,缺点也是存在的:它的操作设置过于复杂,入门相对较为困难,且当前阶段 bug 较多;在美观上与其他几款产品相比略有缺失。同时,由于作者想法很多,整体作品割裂感比较强,并没有一个明确的产品特质。

但是,作者的更新频率以及响应速度非常之快,几乎每隔几天就有一个新版本,可以说是未来可期的一个选择。

Flomo

其实早在 AudioPen 流行之后,我就和少楠提过在笔记软件中加入语音转文字的想法。但当时他们觉得需要先研究语音转文字是不是一个笔记软件的刚需,以及如果真的加入了,如何进行最符合他们产品逻辑的设计,谁料这一研究就是两年。

对于他们这个解释,一开始我和其他挺多人一样,觉得他们只是出于成本考虑而拒绝做出一些新的尝试。也因此,我尝试了其他挺多速记软件。

几个月前,Flomo 终于加入了语音转文字。并且我也很欣慰地看到他们确实在里面融入了自己的想法。相比于那些着重于语音输入后,对笔记进行很多基于不同prompt调整的软件而言,Flomo 不支持自定义prompt(对不少人来说这是个缺点),非常注重写作者原来的结构,仅去除了一些常见的口辟等。

这其实也和我对于笔记的看法不谋而合。之前我也尝试过通过很多预先设置好的 prompt 来对自己的语音输入进行大幅度修改,但最后却发现这些修改过的笔记虽然看起来更加精致,但很多情况下并不能反映我自己的原意。亦或者,当我事后回顾的时候,总感觉这些笔记有些陌生。正如少楠和Lightory 想传递的笔记理念,只有那些在我们用自己的理解记下来的内容,才是我们当下最真挚的表达。我们自己通过思考来进行的重新编辑,也能让我们对自己的笔记有更深刻的印象。

此外,这半年支持的 AI 搜索和最近引入的 AI 洞察也很有想法,能帮助用户发现笔记和笔记之间的关联——虽然 Voicenotes和Dinox也支持类似的功能,但从易用程度以及完成度上来看,后两者只能称得上有这个功能,远远不算好用。

说了这么多,Flomo 当然也有一些问题,比如说他的语音笔记最长只能支持五分钟,对生成的内容会进行自动审核,替换掉一些不当语句,并且不支持同步到其他软件等。但从使用的易用性上,以及语音转文字这一功能本身的实现的完成度上,Flomo 还是做得很好的。

其他:Get笔记、即我笔记、Reflect、Tana、Workflowy等

这里提到的这些笔记软件并不代表市面上所有支持AI语音转文字的软件,还有几款可以简单提一下。

如果把市面上的语音转文字软件分成两类,一类可以算是所谓的「AI 原生」笔记软件,另一类则是「AI+」笔记软件

其中,Get笔记和即我笔记,以及这两年在即刻、小红书上各种独立开发者各种宣传的层出不穷的新软件大都是在AI语音转文字出现之后而诞生的。他们在从初始阶段就兼顾到了语音转文字的开发,但因为我使用的不多,也建议大家去找其他的评测。

而后面提到的这几款Reflect、Tana、Workflow则是基于已有的笔记软件的基础上,把语音转文字融入他们的工作流。其中,Tana毫无疑问是其中做得最好的一款。AI 已经成为其完整工作流中的一环。它既支持会议的转录,也支持日常的手机端以及电脑端的语音输入。此外,Tana还能在输入之后用AI对语音转文字的内容进行进一步修改,自定义化非常强。

但由于这几款都需要比较昂贵的订阅费,在性价比上,如果只是把它作为语音转文字软件而言,相对会比较低。不过,如果能把它们与自己的工作流结合起来,或者作为自己的知识库所在,那是可以考虑的选择。

语音转录输入法

桌面端的语音转文字输入法也有不少选择,最主流的包括 Superwhisper、Wispr Flow等,甚至 Voicenotes 近期也推出了 Mac 端的输入法软件,只需按住快捷键,就能直接把语音转文字输入到当前的文本框内。

由于我日常输入不依赖于 Mac,对这方面没有很深的研究,可以参考Edison的这篇文章来了解更多的细节 https://linux.do/t/topic/833194。

语音输入是 AI 时代的唯一正解吗?

语音转文字软件确实加快了我单一文稿撰写的速度,例如这篇文章有 50% 的部分是通过语音输入完成的初稿。但回头看来,寻找具有仪式感的环境进行语音输入这一行为反而对我创作构成了新束缚。

以前我能在等地铁、午休时花几分钟,用手机或iPad快速写出文章一部分。然而习惯于用语音写初稿之后,我的零散输入时间反而变少了。

未来创作中我可能需要区分不同类型文字,采取不同写作方式。对偏向故事型、记录型的内容,使用语音可能更方便;对偏向书面信息的写作,找个安静地方写可能更好。更或者,在大部分情况下,我都会更加倾向于用打字的方式来进行写作。因为无论是在摘录闪念,亦或是在长篇梳理自己想法的时候,这种字斟句酌的输入方式都更有利于我理清自己的思路。并且,它能更加有一种创作的真实感以及仪式感。毕竟,有时候仪式感本身也是创造力的来源之一。

而对于每个创作者以及记录者而言,根据自己所处环境、惯用设备而选择最适合自己的创作方式,是每个创作者都需要面临的课题

精疲力尽的一个月;明日方舟新主线;Voicenotes Pages

历经半年,终于拼好了乐高哈利波特城堡。途中经历了丢件、丢贴纸、申请补寄被拒、重新申请、等待从丹麦发货这一系列波折,终于还是一鼓作气拼完了。然而这时候才发现家里没有地方可以放它,于是只能继续征用餐桌了⋯⋯


距离上一次更新已经快一个月了。这一个月里,工作上忙着转岗、交接之前的事,同时还忙于安排德国大领导的团建。生活方面更别提了,正在装修的新房子,光是挑选各种装修公司就耗费了我大量精力。更别提在双方之间沟通协调、消除误解、达成共识。完全没有心思也没有精力去做其他事。

也因此,这个月内基本上没有怎么进行阅读,最多也就是刷刷一些社交媒体之类的。之后有空会再更新一篇关于清明节去日本追樱花的游记。

明日方舟新主线

从日本回来后,终于抽出时间把明日方舟最新的主线剧情《离解复合》过了一遍。这次的主线和前面这一两年的主线有些类似,暴露出了不少问题,阅读体感明显没有支线来的顺畅。游戏在叙事层面上出现了明显的割裂感,这种割裂感主要体现在主线与支线故事之间的风格反差上。

方舟的 sidestory 和故事集 一直保持着一种接地气的现实主义风格,讲述具体的地缘政治冲突和小人物的命运。这些故事往往能引起玩家的共鸣,因为它们描绘的世界虽然偏向架空,但总体上还是能感觉到身边会发生的故事,依然能让人感受到真实的人性。

而主线剧情却在科幻元素的运用上越走越远。从伦蒂尼姆章节开始,虽然战争场景的描写还算到位,但到了「离解复合」,科幻感已经完全喧宾夺主了。种种强行植入的设定让人感觉像是在用“机械降神”的方式解决剧情难题,为概念而概念的倾向很明显。

人物塑造方面的问题更值得讨论。凯尔希的死亡场景确实颇具感染力,特别是配上《遗尘漫步》的BGM时确实让人动容。但普瑞赛思的角色塑造就显得相当粗糙了,给人一种“为了有反派而反派”的感觉,缺乏立体感和成长性。至于凯尔希的性格转变,节奏也显得过于仓促,整体的剧情也像是强行往王道的方向靠,情感渲染和道理阐述都缺乏足够的铺垫与过渡。

这种叙事上的断裂感,某种程度上反映出游戏在平衡“硬核科幻”与“现实主义”两种风格时遇到的困境。原本那种克制而细腻的叙事风格,在追求更宏大的科幻主题时反而丢失了。

希望这个章节的问题只是为了铺垫之后的故事而出现。毕竟单从剧情的角度上来说,方舟的剧情叙事风格是我在各种手游里最喜欢的了(叠个甲,FGO、1999、米哈游的几款以及市面上大部分有名二游都玩过),还是期待之后方舟的剧情能再续之前哥伦比亚、叙拉古、巴别塔系列的辉煌吧

Voicenotes Pages

Voicenotes 最近又更新了一个 pages 功能,其实之前这段时间我基本上已经启用了 Voicenotes,都在使用闪念贝壳和 Dinox,毕竟之前被 Voicenotes 的「明镜点点」给搞怕了😂。

不过随着最近这次更新,发现 Voicenotes 的 UI 也有了不少变化。之前它的 UI 确实还比较简陋。但几次更新下来,完成了从简陋到极简的转变。

关于Voicenotes的Pages功能,我觉得它确实能很好地作为个人博客的补充形式。这让我想到了椒盐豆豉博客的内容组织方式:将内容分成了两个维度:一个是需要沉淀的长文博客,通常月更或者双周更;另一个则是类似日记的碎碎念区域;还包括Telegram Channel的日常收藏与灵感分享。

这种内容分流的方式是个挺好的参考。如果把所有零散的想法都塞进博客,内容会显得杂乱无章。Pages功能恰好提供了一个轻量级的平台,可以承载这些零散的思考。

不过这里也要提到立青分享的一个观点:卡片化内容并不适合作为最终输出形式。这种碎片化的记录可能会削弱创作完整内容的动力,也不利于形成系统的思考。 但如果我们转换思路,把这些语音记录当作收集思路的工具——用来捕捉当下的想法和感悟,之后再整理成完整的文章——这倒是一个不错的方法。

这个过程有点像是在海滩上捡贝壳再串成项链——语音是一个相对随意、零散的媒介,特别是在没有预设框架的情况下。而文字创作则需要更完整的逻辑链条。如何把这些零散的“贝壳”串联成一串完整的“珠链”,正是从卡片笔记到成文的过程。

目前我打算先试用这套系统一段时间,也考虑在个人网站上添加Voicenotes Pages的链接,专门放那些不需要写成长文的日常 capture,或者作为之后长文的素材。如果Pages未来能支持图文功能,可能会更贴合我的使用需求。

近期生产力玩具们使用状态更新 (2025 April)

近期玩具一栏

重新开始使用 Heptabase

近期我重新开始使用Heptabase,正如Alan所指出的,当进行专题研究时,白板确实是最为合适的工具。在使用Tana时,虽然在记录单独笔记或进行信息输入时,通过标签管理可以实现流畅的工作流程,但当需要从中观层面梳理和理解事物时,便显得有些力不从心。在这种情况下,白板无疑是最佳选择。

终于开始搭建个人影音库了

这两天,我终于开始着手一个搁置已久的项目:在笔记软件里搭建个人的影音数据库,或者说是个人的数据资产和娱乐hub。这个想法虽然由来已久,但一直处在纠结和犹豫中。

回想起来,在我还使用Notion的那段时间,就经常看到社区里有人用它来搭建个人数据库。比如我很喜欢的博主椒盐豆豉,她就在Notion上维护着一个影音数据库。当时看到这些精美的数据库时,我心里却冒出一个疑问:既然已经有豆瓣这样完善的在线娱乐服务平台,为什么还要费时费力地重新搭建一套呢?

这个困扰一直延续到最近。当我发现了新兴的影音评论网站NeoDB时,最初的想法也是准备在这个平台上构建自己的数据库。但后来的选择却出人意料 – 我还是决定回到笔记软件来实现这个构想。

促使我做出这个决定的关键因素是定制性需求和美观性。在任何第三方网站上,你都只能在预设的几个字段范围内活动 – 写写短评,标记一下”想看”或其他状态,而难以进行更深度的个性化定制。相比之下,在自己的笔记软件里,可以做的事情要丰富得多:可以记录更深入的观点,设定内容的领域分类,最重要的是能够与其他笔记建立有机的联系。

在视觉呈现上,笔记软件提供的看板视图也明显优于大多数网站采用的上下滚动式展示方式,能够呈现出更优雅的内容组织效果。

基于这些考虑,我最终选择了在 Tana 中搭建这个数据库。这样不仅能够与我日常的笔记流程完美融合,未来还计划将其整合到个人博客中,形成一个更完整的个人数据管理系统。

开始使用 Youmind

最近我还开始重新体验玉伯的新产品 Youmind,逐渐理解了它的独特定位。它并非传统的知识管理工具,而是一个面向创作的项目管理平台。这种定位让我想到了长期以来对工具的一些思考。

在此之前,我曾尝试用 Minttr 来积累写作素材。它的瀑布流设计虽然赏心悦目,但实际编辑体验却并不理想。不过在那里建立的写作素材库倒是出乎意料地实用,是目前让我比较满意的功能之一。

Youmind 的项目导向型管理方式很有特色。与我现有的写作素材库相比,它的优势在于可以容纳更丰富的内容形式,不局限于文字材料。这让我看到了新的应用场景:可以把听到的播客片段、看到的精彩视频都收集进来,这是传统写作素材库难以实现的功能。

这两天和 玉伯 聊的时候了解到,他们近期会有一波比较大的更新,重点是在于编辑体验上。他们可能会考虑采取类似于Cursor的形式,来帮助用户更好地进行创作,这就与他们现在的这个仅仅着重于信息收集的模式有了一定的区别。另外,可能还有包括对于board看板的一些新的更新。

信息管理-知识管理-创作管理

这个话题让我联想到知识管理、信息管理和创作管理这三个概念的区别。知识管理服务于个人长期的知识积累,收录的都是经过理解和消化、确信未来有用的内容。信息管理则更符合现代人的收藏倾向,重点是确保需要时能快速检索到相关内容。

可以说,知识管理注重整理和内化,信息管理侧重检索能力,而创作管理则着眼于激发创意和内容整理。这三者之间虽有重叠,但将它们分开处理可能是更明智的选择。

在当前的工具体系中,我主要使用 Heptabase 进行项目研究,用 Tana、新枝和 Youmind 进行信息收集。真正的知识会沉淀在 Heptabase 中。另外,我使用 Readwise Reader 进行高亮标注,这些内容会通过 Readwise 同步到 Heptabase 和 Tana。最终的创作则在 Youmind 和思源中完成,思源笔记的本地化特性提供了很好的存档功能,写作体验也相当不错。

Links + Notes

近期发现了城堡 阅读,这一个前利器社区的作者运营的独立杂志,会有不少链接来源于他的分享。此外这部分的标题也参考 Neo 的形式改成了 Links+Notes 这一更直观的表述。


供给匮乏年代

做产品要多看刚需

供给丰饶年代

特别是有了 AI 作为生产力之后

做产品要看柔需 ——玉伯


DeepSeek 的文章大部分是一眼能看出来的,OpenAI 的也能比较容易分辨出来,相较之下 Claude 在这方面还是更拟人一些。


当身边的人都表达了对哪吒的喜爱的时候,就很难找到机会表达出自己的看法。近期热度降下来了,终于能看到一些反面的声音。这篇虽然是完全从女性主义的角度分析,还是 cover 了大部分令我感觉不适的点的。


2024中文播客数据

  • 平均年龄 31 岁,收入一万六,本科学历占比 91%,人均每周收听 4.8 小时 74.9% 有为播客付费的意愿,63% 过去一年曾经付费。-

-中文播客听众使用的内容平台前三是:b 站、小红书、公众号

-收听场景前三是:通勤、家务、运动。

-持续收听播客的最大理由是开拓视野,打破信息差;而放弃挺播客的最大理由则是对主播内容逐渐失去兴趣。

-创作者方面,做播客的前三个理由是:个人兴趣、分享知识和有价值的内容、内心深处强烈的表达欲。

-另外很多人相比苹果播客的简洁,更喜欢小宇宙开放的评论区,这不禁让让我觉得在播客方面,小宇宙就是网易云音乐。

请叫我播客收听人群平均画像😂。好奇的是明年平均年龄是会增加还是维持不变。

在软件早期,交互和可拓展性哪个更重要?

这几天没忍住,还是把闪念贝壳的终身会员给买了。

虽然它的语音转文字质量确实跟 AudioPen 和 Dinox 都有差距,毕竟它们俩用的是Whisper,而闪念贝壳国内版用的应该不是。但是从设计逻辑、美观程度和交互应用性上,感觉它还是挺有优势的。

由此我想到之前一直在考虑的一个问题:在软件的初期阶段,是更应该注重交互UI的美观程度,还是应该在保证基础的交互功能的前提下,往极高的可扩展性方向发展。

以闪念贝壳和Dinox为例,前者无疑在交互UI的设计上达到了顶尖水平,甚至优于许多苹果原生应用。而 Dinox 则更像是一个未经修饰的毛坯房,虽然其背后的构思和未来的产品愿景宏大,且不乏独到的创意,但在UI设计和交互上却有明显不足。

这就引出了一个问题:我们是否应该期待这种交互上的不足在未来得到改善?毕竟,长期而言,交互和UI设计对用户体验有着深远的影响。使用软件时的感受和心情,往往决定了我们使用它的意愿。

闪念贝壳专注于语音转文字这一场景,并在此基础上深入挖掘,这是它的核心价值所在。而对于这个问题,并没有一个定论,更多的是取决于用户对于交互和UI设计的容忍度和重视程度。对于一些更为“极客”的用户来说,只要功能足够强大,其他的不足也就不那么重要了。

目前现在就属于几种不同的软件混用的一个状态吧。

仔细想来,我发现自己在软件选择上,总是倾向于那些自定义选项较少,但外观设计却颇高的产品。初接触一个新产品时,我往往会偏爱那些具有丰富自定义功能的产品,因为在学习过程中,我能够感受到一种获得感。这种获得感,在某种程度上,正是促使我投入更多时间研究产品的动力。

这或许也是某些产品增加用户粘性的一种策略。然而,随着使用时间的增长,我逐渐意识到,产品本身的实用设计才是关键。就像苹果一样,虽然Windows或Android系统提供了更多的自定义选项,如果你愿意折腾,也能打造出功能强大且外观美观的系统。

但如果我们只是为了满足最基本的需求,那么产品经理引导我们使用软件的方式,可能才是最符合我们基础需求的。简洁的设计,往往能更好地服务于实际需求。

Captures

AI 的分类模式

The 3 AI Use Cases, Gods, Interns, and Cogs:

  • :超智能人工实体,自主执行任务;主要是以炒作和焦虑的方式影响我们;
  • 实习生:受到监督的副驾驶,与专家合作,对错误容忍度高,专注于定义明确的基础工作(如整理文档、填充细节、提供参考等)。是目前交付最多价值的人工智能类型,能让小团队交付远超以往。
  • 齿轮:极好地执行单一任务,通常作为管道和接口的一部分。对错误容忍度低,所以多半是微调或者小模型,所以成本低。比如云平台、审核平台等; ——The 3 AI Use Cases, Gods, Interns, and Cogs——少楠 产品沉思录

稀缺循环

丰饶时代造成我们注意力短缺的原因:

  • 机会:即可能性,确保自己不错过「有价值的东西」,但在丰饶时代会导致过度囤积;
  • 不可预测奖励:为了无法预测的奖励不断重复,如刷视频,得到点赞等;
  • 快速重复:容易做到的行为,带来即时满足,而导致忽略长期有价值的活动; ——少楠 产品沉思录

别让代理指标异化了思维

运用接近真实世界的代理指标能让一些模糊的感受变得可以衡量,比如亚马逊用退货率来量化用户体验。 但代理的问题是,过度量化可能会与实际脱节,让人忘了设置这种代理的目的,为了优化数字而优化。 这也是为什么做一些战略项目的时候,需要行研和用研、定量和定性相结合,通过人和人的交流来避免过度依赖代理 ——少楠 产品沉思录

As news becomes entertainment, markets become the news

Robinhood 创始人 Vlad Tenev 很有意思的发言。之前我对于博彩行业的人士基本只局限于体育行业,通过赔率来关注转会市场或者一些重要比赛的预测,这基于一种认识,即博彩公司往往能在这些领域掌握一些普通人不了解的消息。

博彩网站他们的这种基于市场的行为,有时候并不只是因为他们有更多的信息来源,很多时候更来源于一种去中心化的市场交易,当去中心化的信息能得到快速汇总的时候,进而能更准确地体现事情的真相。

尤其是在美国大选这种场景之下,来源于各个不同地区的投票所产生的去中心化的行为,对于市场的预期也会产生非常直接的影响。 甚至于长久以来博彩网站所能影响的面,或者说它能反映的领域也会越来越多。

相比于越来越娱乐化的各种新闻媒体,他们愈发需要通过故事才能吸引人们来进行阅读,而在这种短平快的移动互联网的大背景下,往往反映速度最快的市场更能体现人们对于“纯粹”的新闻的追求。

博客从 NotionNext迁移到 Thorn

在上一篇博客个人博客问卷里我也提到过,虽然我的博客搭建在 notion 上,但是我也一直考虑搬迁的问题。之前主要考虑的是通过 cursor 辅助来编写一个静态博客。然而,最近也看到了有博客里写到了他的个人博客遭到了攻击,花了很大力气才恢复了博客的正常运转。加上确实没那么多时间来折腾自己写代码+部署,就一直没开始静态博客的尝试。

先聊一下我对 NotionNext 不满意的地方吧。首先就是界面有点廉价感。一般来说要么就是极简风也挺好看的,但是 NotionNext 的大部分主题在白底上总是会有一些奇怪的动效,看起来不是很高级简约。而且,自从 4.0 的某一次更新之后,自定义字体就突然失效了,对于我这个颜值控来说,能够自定义字体还是挺重要的。

还有个问题就是 RSS 的支持。静态网页每次更新文章都要重新部署一下才能更新 RSS,这点我是很能理解的。但是 RSS 的时间信息和格式的解析问题还是挺多的,并且挺要命。无论是具体的格式解析,还是博客名解析都有问题。

这么多问题累积下来之后,其实我一直有想换一个博客部署方式的想法(其实之前也想过,详情可见 博客和笔记软件一样,就是个不停折腾的过程。但确实一直没有找到特别合适的替代品。正好上周在少数派里随意闲逛时,我看到了一篇文章,讲的是 Thorn 在经历了三年后终于要正式发布了,顿时眼前一亮。毕竟我上一次使用它已经接近一年前了。当时感觉这个软件还有很多bug,文章的编辑体验也不是很好,而且站点管理显得比较繁复。

【送码】三年之期,Thorn 正式版现已推出。 – 少数派

这次重新使用了一下,发现它真的进步了很多。无论是经过重新设计的博客站点,还是后台的编辑系统,都比之前有了长足的改进。而且它的站点托管方式也非常友好。在简单尝试了几天之后,我立刻决定,这就是我一直想要的博客拓展托管平台。于是我马上购买了一个月的试用,现在基本上确定后面要继续使用它了。可能不久后就会再买一个一年的套餐,看看它是否可以支持长期使用。

重新启用思源笔记

就像我之前说过的,博客和笔记软件对我来说都像是玩具。它们不仅能帮我记录想法,更能带来乐趣,就像游戏、音乐等娱乐活动一样。

这两天我重新开始使用思源。之前因为同步不稳定,我差点放弃了它。但上周末上课时,我重新发现了思源的优势——特别是它的悬浮窗口和虚拟引用功能,这些都是 Heptabase 和 Tana 目前所不具备的。

今天我原本只是想打开 Obsidian 来存储博客文章。但用过之后,还是觉得它的界面不够美观,而且同步功能(尤其是移动端)很不方便。当我重新尝试思源后,立即被它的功能吸引住了。

最终,我把所有博客文章都导入了思源。不仅如此,我还用思源的数据库功能复制了一份 Notion 里的数据库结构。这样一来,我的写作流程就更清晰了:先在 Ulysses 完成草稿,然后在 Notion 和思源各存一份,最后发布到博客网站上。

Follow & Arc

Follow 是 RSS 的复兴还是自嗨?

最近各种群里都在密集地分享着 Follow 的邀请码。恍惚间似乎回到了一年多前 Arc 刚开始流行时候的场景。但随之而来的问题就是,Follow 最终会发展到什么样的地步?

且不说后文会提到的 Arc 虽然在数码圈非常流行,但距离真正的”破圈”还是有一定的距离。相比之下,Follow 作为一个更加小众的产品品类,具体有多大的发展空间?是否他只是填补人们臆想的一种信息摄入场景?

张一鸣在 10 年前 Google Reader 关闭前曾经对 RSS 形式的软件表达了不看好。他的观点无疑是符合他的产品观的。他所中意的产品一直是为了满足最多人的需求,因此必然需要降低人们的使用门槛,实现傻瓜式的交互。而这种产品观和 RSS 软件这种,需要用户主观上对内容进行挑选的模式有着截然不同的产品走向。

听了一期关于 RSS 的播客讨论,我之前一直以为 RSS 是很多作者喜欢的方式。因为理论上,一旦作者被算法的大流淹没,不仅丧失了创作方向的自主权,还需要迎合越来越多人的喜好。

然而,听这些创作者的想法后,我发现 RSS 可能并不是一个理想的方式。对作者来说,RSS 并不能带来激励。他们只能看到今天又多了一个通过 RSS 订阅的人,却无法知道这些订阅者的身份,无法进行深入分析。而激励始终是一个问题。

现在,Follow 通过发币的形式进行尝试,可以看看是否能让 RSS 走出这个困境。

Arc 停止运营,意料之中?

这两天在很多群里看到了关于 Arc 要逐步停止维护升级,团队要把重心移到一款新的、以 AI 为主导的横向标签排布浏览器软件上去。这算是一个意外却又在意料之中的消息吧。

其实从 Arc 这个产品推出之初,就可以看出 The Browser Company 是一家非常注重营销的公司。这暗示着它的经营成本一定相当高:一方面它有不少员工,另一方面在营销上投入了大量成本。然而,在获得一定融资后,Arc 浏览器并没能找到一个合适的盈利方式。

正如他们在文章或采访中所说,Arc 浏览器的受众其实比较窄,并没能如他们所期待的那样成为市面上的主流浏览器。它虽然在某些圈子里小有名气,但主要还是在生产力爱好者或注重美观的早期用户中传播较多。更多人觉得它还是有些小众,因此用户规模相对有限。

Arc 的盈利困境也值得深入探讨。传统浏览器的盈利模式主要依赖于搜索引擎默认设置带来的收入。然而,这种模式需要庞大的用户基础作为支撑。对于用户规模有限的 Arc 来说,这条路径显然不太现实。另一方面,提供高级功能的增值服务模式在浏览器领域也面临挑战,因为大多数用户对基本浏览功能的需求已经得到满足。这种困境促使 The Browser Company 重新思考其产品定位和商业模式。

这有点像他们最初将软件移植到手机端时的情况。起初,他们只是简单地将浏览器伴侣搬到了手机上,但很快发现这种做法并没有凸显出自己产品的特色。所以他们后来重新开发了 Arc Search 这个软件。到目前为止,Arc Search 仍是我非常喜欢的一款软件。它在使用便捷性上,各方面都强于现在的默认浏览器。我甚至把它放在了手机屏幕底部的四个快捷栏里。

不管怎么说,对于 Arc 可能会逐渐停止更新维护,我还是感到有些惋惜。毕竟它在使用逻辑和美观上确实比之前的 Edge 等浏览器有很大提升。而且纵向标签的排布也很符合我的操作习惯。

现在只能期待他们团队后续推出的 AI 相关软件的使用效果如何了。不过可以预见的是,既然他们之前没有找到合适的盈利方式,那么之后的 AI 浏览器软件很可能会采取收费模式。在这种情况下,是否有必要使用它就成了另一个需要考虑的问题了。具体情况还是要等新产品发布后再做观察。

再谈语音转文字软件的发展方向

对于 AI 来说,语音交互是一个不可或缺的核心功能。

这几天在群里看到很多人分享他们使用语音与AI交互的场景。例如,在带孩子的时候,可以直接抬起手腕对着手表说话,或者随便在手机上点一下。这种情况下的交互非常自然,不会干扰其他行为。

还有一种场景是骑车通勤时,在等红灯的时候,随手抬起手腕与AI互动,这是一种输入阻力很小且非常自然的行为。如果此时需要在手机上通过键盘输入,阻力就会很大,也不符合自然需求。

语音转文字软件进一步的发展方向是以语音作为核心,在此基础上实现更多地互动,以达成个人 Agent地效果。当年 Siri 想走的就是这条路线,但可惜Siri的智能化程度太低,语音转文字的效率也一般。

Dinox

最近发现了一个新的语音转文字的软件 Dinox,而且初步使用下来,它在多种程度上都可以说是目前为止语音转文字和笔记功能结合得最好的。它在保证了一定的语音转文字识别准确度的基础上,在后续的功能开发的多样性上是目前其他软件所无法比拟的。

某种意义上可以说它是一个功能加强版的 Flomo。得到的 Get 笔记走的也是这条路线,但是对 AI 的使用更为克制,只用在内容输入和搜索方面,而 Dinox 则聚焦于后续的处理

首先,在界面方面,Dinox 的界面和 Flomo 比较类似,都是由卡片加标签组成。但是,它的输入方式除了手动输入之外,最显著的就是通过语音转文字输入。而且在输入之后,会有 AI 进行简单的整理。如果还有需要的话,还可以自己手动选择一些更详细的 prompt 进行整理。

在后续的处理上,可以说集合了很多软件的优点,也有自己独特的 killing feature。它可以通过语音搜索或者进行聊天,同时,还可以通过一些定制化的 prompt,将自己的文字转换为待办,或转化为表格形式,并且能够手动设定表头。此外,还有不同的卡片盒,可以说在卡片笔记的方面,无论是前期的录入还是后期的整理,都有非常好的设计。而且对后期的搜索与关联也做得非常完善。像前文提到的语音搜索,以及它自己还提供了相关卡片功能,可以说是在这个领域里目前为止做得最完备的之一。

当然,它现在上线一个多月,还有不少的 bug,但感觉未来还是可期。还忘了说一点,它还支持导出到 Notion 和 Obsidian,感觉可以持续使用一阵子。

Me.Bot

前几天和MeBot的产品经理聊了聊,探讨了一下对于今后这类产品发展的展望。其实,这也是我第一次比较深入地思考与接触类似于AI Companion,或者说更多类似于这种Agent 的类型的AI产品。

在常见的语音转文字功能之外,它还加入了很多输入和输出方面的功能。输入可能既包括语音转文字、录音,对链接的爬取、对图片的识别等等;输出方面也支持生成待办事项等功能。总体而言,它希望能够成为用户的统一输入输出中心,作为用户的辅助而存在。可以说,这是一个更加完备、UI也更好看的Dot。但未来这个产品的发展前景到底如何,仍然很难说。

在不远的将来,更多的公司会试图在手机端结合这类各种功能,而不需要以软件的形式存在。当然,也很难说这些手机端的模型能做到什么样的水平,有有种可能软件的调教才是最好的选择。

当我们讨论速记产品时,到底什么是速记?

平时我们讨论笔记软件的应用性时,常常关注它是否打开速度快,能否便捷地与其他软件同步等功能。或者,我们可能会研究一个软件是否有助于思考。今天我想讨论一种特殊种类的笔记软件,即记录型笔记软件。

本文部分灵感来源于瑾呈 goidea 的一篇文章,他的系统性笔记流程与我相似。他将笔记分为两类:信息采集,以及专题思考。前者他使用Tana,后者使用Heptabase。大多数人日常使用笔记软件时,主要涉及三个个场景:输入,整理和输出。

今天我们聚焦于输入环节,探讨当我们谈论速记时到底在谈论什么。

速记包含了什么

通常我们要求速记能够精准快速地记录当时的所思所想,方便日后整理。但速记本身不仅仅是文字和图片。在我看来,数据本身的文字和图片只是一个表象。只有将这些记录与当时的情境结合,才是完整的记录。

记录必然有一定的场景或情形激发需求。可能是一段音乐,一个播客,一篇文章,甚至是跑步时脑海中闪过的念头。当你回顾这些记录时,将文字和图片与这些因素结合,才能重现当时的场景。这种回顾能帮助你更好地回忆思维过程,同时有助于信息解锁和关联。

用一个形象的比喻,当我们进行记录时,只记录了冰山浮在水面上的部分,而更多的信息潜藏在水面之下。

近期关注的软件 – Jotmo

在速记领域,最近比较关注的有两个软件,一个是语音输入的Dinox,一个是Jotmo。今天先讲一讲 Jotmo。

尽管在当前阶段,它相较于其他软件,尤其是Flomo,只是改变了输入方式,从传统的文档、卡片式记录变成对话框式输入,但从长远来看,它的愿景还是很有体系的。

Jotmo 希望成为一个能快速全面记录你当下所思所想和 context 的软件。很多时候,我们记录的文字和图片并不能完整反映当时的 context。举个例子,当我们想找以前拍的一张照片时,通常需要借助拍摄地址,通过地图寻找。这些记录场景,包括地址、心情等因素,和记录的文字一起,共同构成了我们的记录内容。

从长远规划来看,Jotmo 希望尽可能多地记录发生场景。在他们的roadmap上,短期内会增加语音转文字作为补充输入方式;长期则考虑接入播客、心率等健康数据,以及目前已支持的时间、地址、设备等多种因素,并尽量自动化采集。这在我看来非常有前景,不仅限于现在表现出的类似flomo 的前端。

如果它能长期发展良好,我看好它能成为快速记录场景下的新兴的有前途的产品。目前,它和新枝一样,都处于养成系状态。心知更多是剪藏摘抄类产品,而Jotmo 则可能成为替代flomo 的记录自己想法的新选择。

Short Form

“麦克纳马拉谬误”,即我们尝试去量化我们认为重要的事物,但最终却只关注了可以被量化的事物,从而偏离了真正的目标。

媒体内容的数字存档工作框架(密苏里大学):

  • Availability(可获得性),也即内容有没有被保存下来;
  • Identity(标识性),也即保存下来的内容是否有独一无二的标识;
  • Persistence(持久性),也即存储系统是否可靠;
  • Renderability(呈现性),也即能不能呈现出内容在媒体上最初发表时的样子;
  • Understandability(可理解性),也即受众能不能按照原意来理解存档下来的内容;
  • Authenticity(真切性),也即信息是否真实未经篡改。