对于 AI 来说,语音交互是一个不可或缺的核心功能。
这几天在群里看到很多人分享他们使用语音与AI交互的场景。例如,在带孩子的时候,可以直接抬起手腕对着手表说话,或者随便在手机上点一下。这种情况下的交互非常自然,不会干扰其他行为。
还有一种场景是骑车通勤时,在等红灯的时候,随手抬起手腕与AI互动,这是一种输入阻力很小且非常自然的行为。如果此时需要在手机上通过键盘输入,阻力就会很大,也不符合自然需求。
语音转文字软件进一步的发展方向是以语音作为核心,在此基础上实现更多地互动,以达成个人 Agent地效果。当年 Siri 想走的就是这条路线,但可惜Siri的智能化程度太低,语音转文字的效率也一般。
最近发现了一个新的语音转文字的软件 Dinox,而且初步使用下来,它在多种程度上都可以说是目前为止语音转文字和笔记功能结合得最好的。它在保证了一定的语音转文字识别准确度的基础上,在后续的功能开发的多样性上是目前其他软件所无法比拟的。
某种意义上可以说它是一个功能加强版的 Flomo。得到的 Get 笔记走的也是这条路线,但是对 AI 的使用更为克制,只用在内容输入和搜索方面,而 Dinox 则聚焦于后续的处理
首先,在界面方面,Dinox 的界面和 Flomo 比较类似,都是由卡片加标签组成。但是,它的输入方式除了手动输入之外,最显著的就是通过语音转文字输入。而且在输入之后,会有 AI 进行简单的整理。如果还有需要的话,还可以自己手动选择一些更详细的 prompt 进行整理。
在后续的处理上,可以说集合了很多软件的优点,也有自己独特的 killing feature。它可以通过语音搜索或者进行聊天,同时,还可以通过一些定制化的 prompt,将自己的文字转换为待办,或转化为表格形式,并且能够手动设定表头。此外,还有不同的卡片盒,可以说在卡片笔记的方面,无论是前期的录入还是后期的整理,都有非常好的设计。而且对后期的搜索与关联也做得非常完善。像前文提到的语音搜索,以及它自己还提供了相关卡片功能,可以说是在这个领域里目前为止做得最完备的之一。
当然,它现在上线一个多月,还有不少的 bug,但感觉未来还是可期。还忘了说一点,它还支持导出到 Notion 和 Obsidian,感觉可以持续使用一阵子。
前几天和MeBot的产品经理聊了聊,探讨了一下对于今后这类产品发展的展望。其实,这也是我第一次比较深入地思考与接触类似于AI Companion,或者说更多类似于这种Agent 的类型的AI产品。
在常见的语音转文字功能之外,它还加入了很多输入和输出方面的功能。输入可能既包括语音转文字、录音,对链接的爬取、对图片的识别等等;输出方面也支持生成待办事项等功能。总体而言,它希望能够成为用户的统一输入输出中心,作为用户的辅助而存在。可以说,这是一个更加完备、UI也更好看的Dot。但未来这个产品的发展前景到底如何,仍然很难说。
在不远的将来,更多的公司会试图在手机端结合这类各种功能,而不需要以软件的形式存在。当然,也很难说这些手机端的模型能做到什么样的水平,有有种可能软件的调教才是最好的选择。