基于一段音频识别有多少个人在说话

This topic created in 270 days ago, the information mentioned may be changed or developed.

前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因，有没有大佬能够解答一下。

音频识别

人声分离

人数识别

4 replies • 2025-10-14 10:36:37 +08:00