写了一个本地运行的 macOS 语音输入工具： Juno

This topic created in 45 days ago, the information mentioned may be changed or developed.

大家好，我最近在做 Juno ，一个 macOS 上本地运行的语音输入工具，想请 V 友帮忙试试。

它解决的是一个很具体的问题：我每天要在 Slack 、邮件、浏览器、Cursor 、Notes 里输入很多文字，但系统听写和很多语音工具用起来总是不太顺手。

常见问题是：

- 没有实时转写，说完一大段才发现识别错了
- 项目名、人名、模型名、代码相关词汇很容易被听错
- 语音输入不能理解当前 app 、选中文本、屏幕上的词
- 涉及隐私的内容不想发到云端
- 想在 Mac 上任何输入框里直接使用，而不是打开一个单独的转写页面

Juno 的交互比较简单：按一次快捷键开始说话，再按一次停止，文字会直接落到当前正在输入的 app 里。说话时会显示实时转写；停止后会再做一次最终识别、修正和插入。

目前的本地栈大概是：

- MLX Whisper large-v3-turbo 做实时转写和最终语音识别
- Qwen3-4B Instruct 做本地写作、改写、意图规划
- Qwen3-0.6B 做轻量纠错和校验
- Native macOS shell 负责当前 app 、选中文本、屏幕词汇、snippets 、隐私策略和文本插入

我们踩了不少 live transcription 的坑：部分转写会抖动，句尾容易被模型猜错，静音时可能出现幻觉，短窗口会把上下文截断，最后还要在很短时间内把文字可靠地插入到用户正在用的 app 里。

所以 Juno 没有把实时转写直接丢给 LLM 润色，而是把实时字幕分成稳定文本和不稳定 tail 。用户停止后，再走最终识别、上下文修正、Qwen 写作/动作层和插入流程。

它是免费的，本地运行，模型下载后不需要账号、订阅或云端转写。现在主要支持 Apple Silicon Mac 。

官网： https://usejuno.co/
GitHub： https://github.com/Cassini-Research/Juno

很想听听 V 友的反馈，尤其是：

- 在不同 Mac app 里的插入是否稳定
- 长段语音输入是否顺手
- 实时转写是否让人有信任感
- 对本地模型、隐私和资源占用有什么建议