sqbing
V2EX  ›  问与答

声纹识别答疑

  •  1
     
  •   sqbing · Apr 13, 2015 · 4858 views
    This topic created in 4088 days ago, the information mentioned may be changed or developed.

    目前在做一个与声纹识别有关的项目,应用场景和微信摇电视功能差不多,手机麦克风采集,然后和后台的视频流对比对。

    实际做起来发现,准确率低的可怜,不知道是不是自己的方法有问题,又或者参数选取有问题。请这方面的朋友看看,帮忙理一理思路。

    处理流程包括,麦克风采集(wav文件),声纹计算(MFCC),声纹匹配(DTW)。

    12 replies    2015-12-20 13:50:40 +08:00
    Themyth
        1
    Themyth  
       Apr 13, 2015
    太高端了 ,不懂,帮顶。。
    --------------

    很好奇,是不是用声音可以加密啊?
    sqbing
        2
    sqbing  
    OP
       Apr 13, 2015
    @Themyth 理论上来说很简单,MFCC的方法是上个世纪就提出来并且广泛使用的,很多项目也证明了声纹识别是可以实现的,比如echoprint和微信
    yghack
        3
    yghack  
       Apr 13, 2015
    还是算法识别率的问题吧
    我原来做过指纹识别,尝试了很多种方法,算法差别很大。
    jdnull
        4
    jdnull  
       Apr 13, 2015
    信道差别影响可能会很大;另外你的声纹匹配是硬匹配么?可以考虑把问题转化为分类问题,用一些分类算法做
    miaoever
        5
    miaoever  
       Apr 13, 2015
    模式识别无非就是要不特征牛,要不分类器牛。如果都不行,那效果也可想而知。
    liuweisj
        6
    liuweisj  
       Apr 14, 2015
    可以试试把声纹转成文本,用simhash计算距离来做相似度比较
    sqbing
        7
    sqbing  
    OP
       Apr 16, 2015
    @yghack 算法倒是没多大差别,就是不同的实现效率不一样
    sqbing
        8
    sqbing  
    OP
       Apr 16, 2015
    @jdnull 似乎很难转化为分类问题,而且我也没有办法做样本训练,用于校验的声音源是电视台的直播
    sivacohan
        9
    sivacohan  
    PRO
       Jun 5, 2015 via Android
    声纹识别目前还是一个概念级的东西。
    声纹识别的难点在于不同设备录音会引入不同的噪音。并且采样率,位宽不同都会造成影响。
    MFCC的问题在于理论上是对的,但实际上把主音,背景噪音,电流噪音,mic噪音都去掉,可以有效用于识别的频道就很窄了。
    PS,如果识别准确率能达到30%,你就已经很厉害了。
    sqbing
        10
    sqbing  
    OP
       Jun 8, 2015
    @sivacohan 我描述的声纹识别相对来说很简单,不设计分词等等,只是单纯的波形匹配。目前的准确率在80%左右,不过你描述的噪音问题确实存在,我也在想办法提高信噪比。
    目前我的问题是性能不足,高并发情况下,处理效率太低了,主要是DTW算法的问题,离上线还有段距离。
    sivacohan
        11
    sivacohan  
    PRO
       Jun 8, 2015 via Android
    @sqbing 有空Gtalk聊。
    astonysh
        12
    astonysh  
       Dec 20, 2015
    这个为啥要自己做?国内有提供专业解决方案的公司: http://acrcloud.cn
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3236 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 59ms · UTC 12:13 · PVG 20:13 · LAX 05:13 · JFK 08:13
    ♥ Do have faith in what you're doing.