Chism
V2EX  ›  macOS

macOS 有系统声音语音转文字工具吗?

  •  
  •   Chism · Mar 24, 2022 · 5828 views
    This topic created in 1542 days ago, the information mentioned may be changed or developed.
    实时获取系统声音,将其转为文字
    主要是为了英语使用
    半桶水英语水平,开视频会议经常没听明白对方说什么,如果能转成文本(英语),基本就没有理解障碍了
    目前我知道的是,mac 系统内的声音是可以实时读取的,再加个语音识别 api ,然后文本用悬浮窗口模式显示出来,这样的功能不难开发吧?
    15 replies    2025-02-18 14:47:51 +08:00
    ivyliner
        1
    ivyliner  
       Mar 24, 2022   ❤️ 3
    其实挺难的.
    我了解目前就只有一款做到
    https://www.engineerdraft.com/bemyears/
    Chism
        2
    Chism  
    OP
       Mar 24, 2022
    @ivyliner

    体验不错,唯一缺点是只能从麦克风识别,这样戴耳机的话就不行了
    Chism
        3
    Chism  
    OP
       Mar 24, 2022
    @ivyliner 不过音源可以选择 zoom 通道,这个应该体验不错
    Chism
        4
    Chism  
    OP
       Mar 24, 2022
    @ivyliner

    开启这个软件时,系统声音调节失效,无法增加也无法减小声音,不知道你遇到过没
    ttgo
        5
    ttgo  
       Mar 24, 2022
    我用过一段时间 1 楼说那个做会议记录,但系统自带这个 api 识别率有点低。
    findex
        6
    findex  
       Mar 24, 2022
    我刚刚试了一下,感觉还挺不错的。M1 上会启用苹果内置硬件的 coreML 。
    正如官网说的
    > BeMyEars 充分利用苹果的 CoreML 和 Speech 机器学习框架, 语音识别全部在本地设备完成, APP 本身不会主动上传任何语音 /视频数据

    回复一下楼主,这款应用挺好用的,你创建一个虚拟声卡,将合成声音导入到虚拟声卡,用 BeMyEars 提取虚拟声卡的声音,就可以看视频(开会)看字幕了。还有导出字幕功能。将会从开启软件开始的字幕整体导入到一个 txt 文件。

    这个应用有 in app purchase (内购)。只能试用 7 次,然后订阅制。每月 3 刀,年付 30 刀。美区贵一点。国区可能 6 元每月吧。
    https://imgur.com/V0kmyef

    试了一下,感觉实时识别率不高,有错误。感觉 50%的中文准确率都不到,支持 arm64 ,cpu 使用率 3-4%,coreML 因为是利用 macos 自带的语音识别,cpu 占用率,你会看到一个进程 com.apple.siri.embeddedspeech 107% assistantd 的使用率大约 47%。英文识别率高一点,能达到个 60%吧。但是对于听关键词还是比较有帮助的。

    个人感觉这个应用就是套用系统内置的语音识别的壳。

    网易推出一款语音同传的软件: https://tongchuan.youdao.com/
    有免费版,每天一小时:
    > 源语言:中、英, 目标语言:中、英、日、韩
    支持的语言比较少,主要是中、英文。试过,比内置 siri 套壳准确多了。
    ivyliner
        7
    ivyliner  
       Mar 24, 2022
    @Chism
    安装 BlackHole 可以读取大部分语音. 你说的选择 zoom 通道应该也可以, 不过也有人反馈过有问题, 我没有复现过.
    目前也在研究新方法.

    音量控制说明文档.
    https://www.engineerdraft.com/bemyears/docs.html#%E5%A6%82%E4%BD%95%E8%B0%83%E8%8A%82%E9%9F%B3%E9%87%8F
    ivyliner
        8
    ivyliner  
       Mar 24, 2022
    @ttgo 目前中文准确率确实比较低, 但是英文应该还可以的. 我自己用够用, 主要场景和 OP 比较像辅助理解, 并没有完全依赖.
    最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术.
    findex
        9
    findex  
       Mar 24, 2022
    @ivyliner 哇,原来你是这个 BeMyEars 原作者啊。哈哈。幸会。找了几个能提取 macos siri 语音识别的,也就只有你这款软件了。做的挺棒的。

    > 最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术.

    祝福老哥捷报频传,攻克各种难关,造福一方。(话说能推出买断制的 app 么,想买断,嘿嘿)
    ivyliner
        10
    ivyliner  
       Mar 24, 2022   ❤️ 2
    @findex 看来对 BeMyEars 挺清楚的, 欢迎相互学习.
    简单纠正一下几个小的问题.
    1. 试用是 7 天, 不是 7 次. 如果是年付的话还可以免费试用七天, 一共是 14 天, 而且在 APP 订阅界面主动提供取消订阅的帮助文档, 自我感觉订阅算厚道.
    2. 每月 3 刀, 年付 30 刀 在中国区之外价格是对的. 在中国区的价格是 美区 10 元, 年付 98 元. 针对中国区是特殊设置的, 因为如果统一汇率计算的话, 导致有些国家特别贵, 其实不太合理. BeMyEars 的定价标准是一顿饭价格 1/3 每月. 自我感觉性价比也算厚道.
    3. BeMyEars 目前是调用系统内置的语言识别的接口, 但是并不是套一个壳那么简单, 里面还是有不少难度的.

    另外你推荐的网易语音同传软件我好像没有找到 macOS 版本, 如果有的话, 麻烦给一下, 万分感谢.
    因为我目前手上积累了不少听障的朋友, 他们特别需要一款 macOS 下面识别准确率高, 同时价格能够承担起的软件.
    wclebb
        11
    wclebb  
       Mar 24, 2022 via iPhone
    飞书可以,不过确实需要换。
    findex
        12
    findex  
       Mar 24, 2022 via iPhone
    @ivyliner 价格来言国区这个确实还可以了。对有听力障碍的朋友很有用。就是 siri 内置的语音识别不准,只能看个大概,但是对于慢速的视频会议应该问题不大吧。

    关于网易语音识别你可以虚拟机里试试,目前官方只支持 windows 版本.。但是网易有商用 API ,你可以申请成为网易二次开发作者,调用 API 。具体我没操作。我只是试过网易语音识别,识别度挺高的。每天的免费的 1 小时基本上可以开会 1 小时需求。

    我已经把你的应用推荐给了几个外国朋友,这个对于语言教学应该挺有帮助的。虽然 Siri 不太准,但是支持的语言多。
    ivyliner
        13
    ivyliner  
       Mar 25, 2022
    @findex 非常感谢推荐啊.
    其实在 windows 下面目前最好用的是, 联想语音 , 你可以试一下. 目前免费, 做的很好, 不过在 4.1 号之后要开始收费了.

    使用 API 的话, 其实反而更简单, 而且还有很多选择, 阿里, 百度, 腾讯.... 都有对应的 API, 问题是都很贵, 就说这个网易语音每天免费 1 小时, 超过的话, 收费标准是 2 元 /分钟. 要是会议不小心延迟 5 分钟, 就够一个 BeMyEars 一个月订阅费用了,
    当然你如果小心的话, 是可以保证不超出的, 但是开会沟通本来就需要比较专注, 然后还要分心做这些事情, 体验不太好.

    还有一个最重要的原因 我看 @Chism 需要用外语沟通, 那么大概率是在外企, 很多外企对数据的安全性特别看重, 直接把会议的语音上传到服务器进行识别, 虽然我们不能恶意推测这些厂商不会拿着这些数据做啥. 但是总是一个风险点.

    所以 BeMyEars 定位就是一款本地识别的软件, 尊重用户数据隐私. 当然弊端很明显 1. 本地计算资源消耗较大 解决思路: 苹果电脑硬件 M1, M2 算力提升较快, 问题到不是很大. 2. 识别准确性问题, 目前英语准确性还行, 汉语不是特别好用, 毕竟苹果是家美国企业. 解决思路: 1 苹果本身自己会不断提高准确性, 共享红利. 2. 自己调研语音识别方案, 已经在做了, 比较难 , 希望今年能有个比较好的产出吧.
    Jacklandrin
        14
    Jacklandrin  
       Mar 29, 2022
    Zoom ,Microsoft Teams, Google Meets 这类会议服务都是可以通过 web 方式进行的,而 chrome 浏览器自带了英文字幕功能。Microsoft Teams, Google Meets 应该也可以在 app 里开启英文字幕,zoom 我不太确定是不是得主持人得开启。
    https://support.google.com/chrome/answer/10538231?hl=zh-Hans
    pimou
        15
    pimou  
       Feb 18, 2025
    可以看下,DuRT 是 Mac 上的语音识别和翻译软件。
    https://apps.apple.com/us/app/durt/id6736675809?mt=12

    目前功能:1. 实时识别音频(支持系统音频和麦克风),转成文本 (支持几十种语言)
    2. 实时将文本翻译成需要的语言 (支持几十种语言)
    3. 保存音频、保存文本。

    DuRT 语音识别有两种方式。 一种是使用 mac 系统内置的语音识别。 一种是使用 whisper 模型。 都是使用的本地服务。 不需要使用云端的付费接口。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3010 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 02:47 · PVG 10:47 · LAX 19:47 · JFK 22:47
    ♥ Do have faith in what you're doing.