LuliYanng
V2EX  ›  问与答

怎么看待 voice agent 这个交互形态

  •  
  •   LuliYanng · May 31 · 1381 views
    最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。

    想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。
    7 replies    2026-06-01 23:41:45 +08:00
    teaguexiao
        1
    teaguexiao  
       May 31
    语音目前更适合低认知负担的场景,比如记录碎片想法、简单指令,而不是处理复杂任务。Jarvis 那种形态难点不在语音识别,而在 AI 真正理解上下文并自主执行多步操作。
    vitoaaazzz
        2
    vitoaaazzz  
       May 31
    信息密度太低
    LuliYanng
        3
    LuliYanng  
    OP
       May 31
    @teaguexiao 是啊 最近在思考 voice agent 这个形态的时候,很明显能感觉到的一个交互上的问题就是,人类口头的输出都是模糊语义的 不想打字那样还能在组织语言的过程中丰富信息密度。感觉这种形态还很难能够从 demo 到一个世纪可用产品的落地🤔
    May725
        4
    May725  
       May 31
    这让我想起来前几天 vide coding 时, 意识到文字不能很好的表达说话的语气.
    例如反问语气 “怎么把我的.git 删了?", ai 认为我让它把.git 删除
    LuliYanng
        5
    LuliYanng  
    OP
       5 days ago
    @May725 你是用文字打的这句话吗? ai 这也能误解了吗
    fredweili
        6
    fredweili  
       5 days ago
    做这个的门槛太低了,livekit 有整套的解决方案,但是能干啥呢?又一个 chatbot?
    LuliYanng
        7
    LuliYanng  
    OP
       5 days ago
    @fredweili 是这样的,但看起来很割裂的,明明技术上已经可行,门槛也很低了,但是目前位置也没有一个产品跑出来,所以在想到底是什么问题?是这种交互形态导致的,还是说虽然技术门槛低了,但是始终没有一个好的产品形态能够被商业化?主要的问题在这些方面
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1129 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 18:07 · PVG 02:07 · LAX 11:07 · JFK 14:07
    ♥ Do have faith in what you're doing.