大家好,我最近在做 Juno ,一个 macOS 上本地运行的语音输入工具,想请 V 友帮忙试试。
它解决的是一个很具体的问题:我每天要在 Slack 、邮件、浏览器、Cursor 、Notes 里输入很多文字,但系统听写和很多语音工具用起来总是不太顺手。
常见问题是:
- 没有实时转写,说完一大段才发现识别错了
- 项目名、人名、模型名、代码相关词汇很容易被听错
- 语音输入不能理解当前 app 、选中文本、屏幕上的词
- 涉及隐私的内容不想发到云端
- 想在 Mac 上任何输入框里直接使用,而不是打开一个单独的转写页面
Juno 的交互比较简单:按一次快捷键开始说话,再按一次停止,文字会直接落到当前正在输入的 app 里。说话时会显示实时转写;停止后会再做一次最终识别、修正和插入。
目前的本地栈大概是:
- MLX Whisper large-v3-turbo 做实时转写和最终语音识别
- Qwen3-4B Instruct 做本地写作、改写、意图规划
- Qwen3-0.6B 做轻量纠错和校验
- Native macOS shell 负责当前 app 、选中文本、屏幕词汇、snippets 、隐私策略和文本插入
我们踩了不少 live transcription 的坑:部分转写会抖动,句尾容易被模型猜错,静音时可能出现幻觉,短窗口会把上下文截断,最后还要在很短时间内把文字可靠地插入到用户正在用的 app 里。
所以 Juno 没有把实时转写直接丢给 LLM 润色,而是把实时字幕分成稳定文本和不稳定 tail 。用户停止后,再走最终识别、上下文修正、Qwen 写作/动作层和插入流程。
它是免费的,本地运行,模型下载后不需要账号、订阅或云端转写。现在主要支持 Apple Silicon Mac 。
官网: https://usejuno.co/
GitHub: https://github.com/Cassini-Research/Juno
很想听听 V 友的反馈,尤其是:
- 在不同 Mac app 里的插入是否稳定
- 长段语音输入是否顺手
- 实时转写是否让人有信任感
- 对本地模型、隐私和资源占用有什么建议
它解决的是一个很具体的问题:我每天要在 Slack 、邮件、浏览器、Cursor 、Notes 里输入很多文字,但系统听写和很多语音工具用起来总是不太顺手。
常见问题是:
- 没有实时转写,说完一大段才发现识别错了
- 项目名、人名、模型名、代码相关词汇很容易被听错
- 语音输入不能理解当前 app 、选中文本、屏幕上的词
- 涉及隐私的内容不想发到云端
- 想在 Mac 上任何输入框里直接使用,而不是打开一个单独的转写页面
Juno 的交互比较简单:按一次快捷键开始说话,再按一次停止,文字会直接落到当前正在输入的 app 里。说话时会显示实时转写;停止后会再做一次最终识别、修正和插入。
目前的本地栈大概是:
- MLX Whisper large-v3-turbo 做实时转写和最终语音识别
- Qwen3-4B Instruct 做本地写作、改写、意图规划
- Qwen3-0.6B 做轻量纠错和校验
- Native macOS shell 负责当前 app 、选中文本、屏幕词汇、snippets 、隐私策略和文本插入
我们踩了不少 live transcription 的坑:部分转写会抖动,句尾容易被模型猜错,静音时可能出现幻觉,短窗口会把上下文截断,最后还要在很短时间内把文字可靠地插入到用户正在用的 app 里。
所以 Juno 没有把实时转写直接丢给 LLM 润色,而是把实时字幕分成稳定文本和不稳定 tail 。用户停止后,再走最终识别、上下文修正、Qwen 写作/动作层和插入流程。
它是免费的,本地运行,模型下载后不需要账号、订阅或云端转写。现在主要支持 Apple Silicon Mac 。
官网: https://usejuno.co/
GitHub: https://github.com/Cassini-Research/Juno
很想听听 V 友的反馈,尤其是:
- 在不同 Mac app 里的插入是否稳定
- 长段语音输入是否顺手
- 实时转写是否让人有信任感
- 对本地模型、隐私和资源占用有什么建议