V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
coderwei
V2EX  ›  问与答

基于一段音频识别有多少个人在说话

  •  
  •   coderwei · Oct 14, 2025 · 1525 views
    This topic created in 196 days ago, the information mentioned may be changed or developed.
    前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
    目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因,有没有大佬能够解答一下。
    4 replies    2025-10-14 10:36:37 +08:00
    supuwoerc
        1
    supuwoerc  
       Oct 14, 2025
    whisper 好像可以做到
    Seanfuck
        2
    Seanfuck  
       Oct 14, 2025
    识别的人数永远都是 2 人,大概是模型就只支持区分 2 人。
    ttgo
        3
    ttgo  
       Oct 14, 2025
    简单说这是一个分类问题。我记得哪个大佬在他的 ai 课里炫技,用一行 matlab 代码就实现了用 svm 来区分多人语音。
    barantt01
        4
    barantt01  
       Oct 14, 2025
    语音分割+向量
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3595 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 11:10 · PVG 19:10 · LAX 04:10 · JFK 07:10
    ♥ Do have faith in what you're doing.