如果想在 V2EX 获得更好的推广效果,欢迎了解 PRO 会员机制:
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题,持有 V2EX Solana Token 会在每日签到时获得额外铜币:
https://www.v2ex.com/solana
VideoCloudTech
V2EX  ›  推广

盖楼抽奖|为拿下算法 “奥斯卡”,阿里团队设计了一个冠军方案

  •  
  •   VideoCloudTech · Mar 31, 2021 · 15256 views
    This topic created in 1899 days ago, the information mentioned may be changed or developed.

    被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕,2021 年首届 “新内容 新交互” 全球视频云创新挑战赛正火热进行中,这两场大赛都不约而同地将关注点放在了视频目标分割领域,本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频目标分割比赛夺冠背后的技术经验,为本届大赛参赛选手提供 “他山之石”。

    作者|负天

    与图像识别不同,AI 分析理解视频的技术门槛较高。长期以来,业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS ( Densely Annotated Video Segmentation )为例,该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息,过去几年,全球顶级科技在该比赛中的成绩从未突破 80 分,而达摩院的模型最终在 test-challenge 上取得了 84.1 的成绩。

    DAVIS 的数据集经过精心挑选和标注,视频分割中比较难的点都有体现,比如:快速运动、遮挡、消失与重现、形变等。DAVIS 的数据分为 train ( 60 个视频序列),val ( 30 个视频序列),test-dev ( 30 个视频序列),test-challenge ( 30 个视频序列)。其中 train 和 val 是可以下载的,且提供了每一帧的标注信息。对于半监督任务,test-dev 和 test-challenge,每一帧的 RGB 图片可以下载,且第一帧的标注信息也提供了。算法需要根据第一帧的标注 mask,来对后续帧进行分割。分割本身是 instance 级别的。

    阿里达摩院:像素级视频分割

    阿里达摩院提供了一种全新的空间约束方法,打破了传统 STM 方法缺乏时序性的瓶颈,可以让系统基于视频前一帧的画面预测目标物体下一帧的位置;此外,阿里还引入了语义分割中的精细化分割微调模块,大幅提高了分割的精细程度。最终,精准识别动态目标的轮廓边界,并且与背景进行分离,实现像素级目标分割。

    基本框架

    达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改进。STM 的主要思想在于,对于历史帧,每一帧都编码为 key-value 形式的 feature 。预测当前帧的时候,以当前帧的 key 去和历史帧的 key 做匹配。匹配的方式是 non-local 的。这种 non-local 的匹配,可以看做将当前 key,每个坐标上的 C 维特征,和历史每一帧在这个坐标上的 C 维特征做匹配。匹配得到的结果,作为一个 soft 的 index,去读取历史 value 的信息。读取的特征和当前帧的 value 拼接起来,用于后续的预测。

    三大技术创新

    1. 空间约束

    STM 的特征匹配方式,提供了一种空间上的长依赖, 类似于 Transformer 中,通过 self-attention 来做序列关联。这种机制,能够很好地处理物体运动、外观变化、遮挡等。但也有一个问题,就是缺乏时序性,缺少短时依赖。当某一帧突然出现和目标相似的物体时,容易产生误召回。在视频场景中,很多情况下,当前帧临近的几帧,对当前帧的影响要大于更早的帧。基于这一点,达摩院提出依靠前一帧结果,计算 attention 来约束当前帧目标预测的位置,相当于对短期依赖的建模。

    具体的方法如下图所示:

    1. 当前帧的特征和前一帧的预测 mask 在 channel 维度上做 concat,得到 HxWx (c+1) 的特征;
    2. 通过卷积将特征压缩为 HxW ;
    3. 用 sigmoid 函数将 HxW 的特征,压缩范围,作为空间 attention ;
    4. 把 attention 乘到原特征上,作为空间约束。

    下图为空间 attention 的可视化结果,可以看到大致对应了前景的位置。

    2. 增强 decoder

    达摩院引入了语义分割中的感受野增强技术 ASPP 和精细化分割的微调( refinement )模块。ASPP 作用于 memory 读取后的特征,用于融合不同感受野的信息,提升对不同尺度物体的处理能力。

    3. 训练策略

    达摩院提出了一个简单但是有效的训练策略,减少了训练阶段和测试阶段存在的差异,提升了最终效果。

    原始 STM 训练时,会随机从视频中采样 3 帧。这三帧之间的跳帧间隔,随着训练逐渐增大,目的是增强模型鲁棒性。但达摩院发现,这样会导致训练时和测试时不一致,因为测试时,是逐帧处理的。为此,在训练的最后阶段,达摩院将跳帧间隔重新减小,以保证和测试时一致。

    其他

    backbone: 达摩院使用了 ResNeST 这个比较新的 backbone,它可以无痛替换掉原 STM 的 resnet 。在结果上有比较明显提升。

    测试策略: 达摩院使用了多尺度测试和 model ensemble 。不同尺度和不同 model 的结果,在最终预测的 map 上,做了简单的等权重平均。

    显存优化: 达摩院做了一些显存优化方面的工作,使得 STM 在多目标模式下,可以支持大尺度的训练、测试,以及支持较大的 memory 容量。

    数据: 训练数据上,达摩院使用了 DAVIS 、Youtube-VOS,以及 STM 原文用到的静态图像数据库。没有其他数据。

    结果

    达摩院的模型,最终在 test-challenge 上取得了 84.1 的成绩。

    在 test-dev 上的消融实验。达摩院复现的 STM 达到了和原文一致的结果。在各种 trick 的加持下, 得到了 11 个点的提升。

    随着互联网技术、5G 技术等的发展,短视频、视频会议、直播的场景越来越多,视频分割技术也将成为不可或缺的一环。比如,在视频会议中,视频分割可以精确区分前背景,从而对背景进行虚化或替换;在直播中,用户只需要站在绿幕前,算法就实时替换背景,实现一秒钟换新直播间;在视频编辑领域,可以辅助进行后期制作。

    参考

    1. Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
    2. Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018

    “新内容 新交互” 全球视频云创新挑战赛算法挑战赛道

    本届全球视频云创新挑战赛是由阿里云联手英特尔主办,与优酷战略技术合作,面向企业以及个人开发者的音视频领域的挑战赛。算法挑战赛道聚焦视频人像分割领域,视频分割将传统图像分割问题延伸到视频领域,可服务于视频理解处理和编辑等任务。

    算法赛道描述

    本次大赛提供一个大规模高精度视频人像分割数据集,供参赛选手训练模型。不同于传统的二值分割目标(即人像区域标注为 1,其他区域标注为 0 ),本竞赛重点关注分割各个不同的人象实例,目标是从视频中精确、稳定分割出显著的(单个或多个)人体实例,以及其相应附属物、手持物。

    本次比赛分为初赛数据集和复赛数据集。复赛数据集等初赛结束后公布,复赛中也可以使用初赛数据集。

    初赛环节提供训练集供选手下载,训练数据集共 1650 段视频。训练集中每个样本由 RGB 图像序列和掩码图像序列组成,RGB 图像序列为原始视频图像序列,格式为 jpg 文件;掩码图像为人体分割的真值 (ground-truth),格式为 png 文件,掩码图像中不同的像素值表示不同的人体实例,0 为背景区域,非 0 为前景区域(例如 1 为人像 1,2 为人像 2 )。RGB 和 png 文件是一一对应关系。数据集每个视频的长度为 80 帧~ 150 帧,每个视频的分辨率不完全相同。预赛的测试数据为 48 段视频。测试集只提供 RGB 图像序列。如出现多个人像实例,每个人像可以任意顺序标注,评测时将被独立计算。

    本次比赛允许参数选手使用其他公开数据集和公开模型,但参赛选手的模型必须满足能在限定时间内复现的要求,复现精度小于规定误差。

    评估标准

    对于算法恢复的视频结果,本次比赛采用 Mean J And F 做为评价指标。J 为描述分割人体区域精度的 Jaccard Index,F 为描述分割人体的边界精确度。具体请参照参考文献 1 。每个视频允许选手最多输出 8 个人物分割结果,选手分割结果与真值先进行 IOU 匹配,找到对应的人物后,根据该结果进行评分。多余的分割结果,没有惩罚。如果超过 8 个区域,整个视频结果无效。

    奖项设置

    冠军:1 支队伍,奖金 9 万人民币,颁发获奖证书

    亚军:2 支队伍,奖金 3 万人民币,颁发获奖证书

    季军:3 支队伍,奖金 1 万人民币,颁发获奖证书

    Cooper Lake 最佳实践:3 支队伍,奖金 2 万人民币,颁发获奖证书

    此外,复赛审核通过的排名前 12 队伍,可进入阿里云校招绿色通道。

    视频云大赛正在火热报名中 扫码或点击下方链接,一起驱动下一代浪潮! https://tianchi.aliyun.com/competition/entrance/531873/introduction


    楼层抽奖规则

    • 评论回复内容不限,可以是视频云大赛相关提问、期望
    • 抽十个人,每人送一个保温杯
    • 截止日期为:2021.4.2 12:00
    • 从回复楼层中随机抽取
    • 中奖结果会以附言形式公布于本帖,并 @ 各位中奖用户
    function createRandom(num,from,to)
    {
        var arr=[]; 
        var json={};  
        while(arr.length<num)
        {
            var ranNum=Math.round(Math.random()*(to-from))+from;
            if(!json[ranNum])
            {
                json[ranNum]=1;
                arr.push(ranNum); 
            }
        }
        return arr;
    }
    
    createRandom(10,0,回复楼层) //抽奖
    
    

    源码引自 yedanbo/createRandom().js

    礼物图片 盖楼超 100 层,下次活动送电脑包~

    Supplement 1  ·  Apr 2, 2021


    恭喜:
    @server @dream7758522 @Microi @zhaidoudou123 @sinux @honeyshine75 @magicnobob @ervqq @auto8888 @ZHanYao

    辛苦各位邮寄信息发送到 videocloudtech#gmail.com ,# 替换为 @ 。

    姓名+电话+地址+V2EX 帐号截图(确认身份)

    迫于大家的热情,清明节之后我们还会再办一次盖楼活动,欢迎再来玩 :P


    例子:
    411 replies    2021-04-06 09:43:02 +08:00
    1  2  3  4  5  
    wpen613617
        301
    wpen613617  
       Apr 1, 2021
    分子
    zhaol
        302
    zhaol  
       Apr 1, 2021
    分子分子
    tzl
        303
    tzl  
       Apr 1, 2021
    分子来了
    smartG
        304
    smartG  
       Apr 1, 2021
    11
    fengxianqi
        305
    fengxianqi  
       Apr 1, 2021
    太长看不懂,那就分子一下吧
    jsjgjbzhang
        306
    jsjgjbzhang  
       Apr 1, 2021
    从来没中过奖的来了
    colorfulberry
        307
    colorfulberry  
       Apr 1, 2021
    没中过的人继续分母
    xinyu98
        309
    xinyu98  
       Apr 1, 2021 via Android
    分母
    breaklayer
        310
    breaklayer  
       Apr 1, 2021
    没中过奖的来了
    lwmyth
        311
    lwmyth  
       Apr 1, 2021
    谁还不能当会分子呢
    yuxi521
        312
    yuxi521  
       Apr 1, 2021
    1111
    l9rw
        313
    l9rw  
       Apr 1, 2021
    做个分母看看
    daijialong
        314
    daijialong  
       Apr 1, 2021
    asdf45e6rt46er5asdf
    Naruto129
        315
    Naruto129  
       Apr 1, 2021
    我就是单纯的划个水
    kiroli
        316
    kiroli  
       Apr 1, 2021
    分母+1
    EZVIK
        317
    EZVIK  
       Apr 1, 2021
    分母来了
    Huelse
        318
    Huelse  
       Apr 1, 2021
    分母+1
    brust
        319
    brust  
       Apr 1, 2021
    分子+1
    jkmf
        320
    jkmf  
       Apr 1, 2021
    来了
    yangzj1992
        321
    yangzj1992  
       Apr 1, 2021
    愚人节快乐= =?
    T9436929T
        322
    T9436929T  
       Apr 1, 2021
    来了来了
    input2output
        323
    input2output  
       Apr 1, 2021
    分子++
    sansanhehe
        324
    sansanhehe  
       Apr 1, 2021
    分母++
    zwlinc
        325
    zwlinc  
       Apr 1, 2021
    愚人节快乐,各位分子们
    cornelia
        326
    cornelia  
       Apr 1, 2021
    我是一个分子
    her999
        327
    her999  
       Apr 1, 2021
    ???/1
    BALLACK
        328
    BALLACK  
       Apr 1, 2021
    1
    qwer666df
        329
    qwer666df  
       Apr 1, 2021
    分子
    JerryLiu93
        330
    JerryLiu93  
       Apr 1, 2021
    看了半天,我太菜了
    komorbi
        331
    komorbi  
       Apr 1, 2021
    分子一个
    fedfrank
        332
    fedfrank  
       Apr 1, 2021
    分组
    poly1911
        333
    poly1911  
       Apr 1, 2021
    分子+1
    Citronl
        334
    Citronl  
       Apr 1, 2021
    +1
    crazytudou
        335
    crazytudou  
       Apr 1, 2021
    哦,目标明确,抽奖
    silencegg
        336
    silencegg  
       Apr 1, 2021
    目标明确,抽奖
    Molita
        337
    Molita  
       Apr 1, 2021
    拉低中奖率
    itgoyo
        338
    itgoyo  
       Apr 1, 2021
    抽奖
    jumpiz
        339
    jumpiz  
       Apr 1, 2021
    抽奖
    sun649936757
        340
    sun649936757  
       Apr 1, 2021
    分母+1
    frankyxu
        341
    frankyxu  
       Apr 1, 2021
    感觉好厉害的样子
    TheWalkingDead
        342
    TheWalkingDead  
       Apr 1, 2021
    凑个热闹
    ssml
        343
    ssml  
       Apr 1, 2021
    奖来
    jiorix
        344
    jiorix  
       Apr 1, 2021
    分子
    rapperx2
        345
    rapperx2  
       Apr 1, 2021
    分母
    flyonthewall
        346
    flyonthewall  
       Apr 1, 2021
    分子分子
    baixixi
        347
    baixixi  
       Apr 1, 2021
    分母+1
    superwhite
        348
    superwhite  
       Apr 1, 2021
    分母
    iv2ex
        349
    iv2ex  
       Apr 1, 2021
    [出货吧]
    CharlseChen
        350
    CharlseChen  
       Apr 1, 2021
    分子分子啊
    zzzzzzzzyp
        351
    zzzzzzzzyp  
       Apr 1, 2021
    厉害了,我的云
    pengjl
        352
    pengjl  
       Apr 1, 2021
    分母来了
    leopod1995
        353
    leopod1995  
       Apr 1, 2021
    v 站白嫖党+1
    vmos
        354
    vmos  
       Apr 1, 2021
    凑个分母吧
    lopetver
        355
    lopetver  
       Apr 1, 2021
    视频算法真的是未来的基础设施啊
    unlighted
        356
    unlighted  
       Apr 1, 2021 via Android
    不知道说啥了,祝大家每天都能摸鱼
    aixiangbing
        357
    aixiangbing  
       Apr 1, 2021
    恭喜恭喜呀
    getcodex
        358
    getcodex  
       Apr 1, 2021
    分子分子 +11111
    ParfoisMeng
        359
    ParfoisMeng  
       Apr 1, 2021
    看不懂,分母
    jonah
        360
    jonah  
       Apr 1, 2021
    分母
    CupCupFun
        361
    CupCupFun  
       Apr 1, 2021
    厉害了
    RyanOne
        362
    RyanOne  
       Apr 1, 2021
    恭喜恭喜
    skycitygalaxy
        363
    skycitygalaxy  
       Apr 1, 2021
    厉害了
    my1103
        364
    my1103  
       Apr 1, 2021
    simoger
        365
    simoger  
       Apr 1, 2021
    厉害
    xixi10111011
        366
    xixi10111011  
       Apr 1, 2021
    fenzi
    willamtang
        367
    willamtang  
       Apr 1, 2021
    分子加分母啊
    DoubleShut
        368
    DoubleShut  
       Apr 1, 2021
    分子
    york6666
        369
    york6666  
       Apr 1, 2021
    分母
    wkhapy1233
        370
    wkhapy1233  
       Apr 1, 2021
    分子
    sonice
        371
    sonice  
       Apr 1, 2021
    快寄给我吧
    ml1344677
        372
    ml1344677  
       Apr 1, 2021
    分母
    lzxz1234
        373
    lzxz1234  
       Apr 1, 2021
    愚人节活动?
    qiliang72
        374
    qiliang72  
       Apr 1, 2021
    分子+1
    yyqy
        375
    yyqy  
       Apr 1, 2021
    分数线
    zcfnc
        376
    zcfnc  
       Apr 1, 2021
    分子!!!
    ivanyin
        377
    ivanyin  
       Apr 1, 2021
    分子来了
    hwcj123
        378
    hwcj123  
       Apr 1, 2021
    分子来了
    huweic
        379
    huweic  
       Apr 1, 2021
    6666
    pidan
        380
    pidan  
       Apr 1, 2021
    这不让我中一个有点过分了吧
    naver1
        381
    naver1  
       Apr 1, 2021
    我不要。
    NoirStrike
        382
    NoirStrike  
       Apr 1, 2021
    太菜了看不懂...
    nikanon
        383
    nikanon  
       Apr 1, 2021
    日常分母
    Serializability
        384
    Serializability  
       Apr 1, 2021
    分母来了
    young4u
        385
    young4u  
       Apr 1, 2021
    分子
    stroh
        386
    stroh  
       Apr 1, 2021
    分子
    zmNv0
        387
    zmNv0  
       Apr 1, 2021
    分母+1
    Cowhitewhite
        388
    Cowhitewhite  
       Apr 1, 2021
    分母
    gancl
        389
    gancl  
       Apr 1, 2021
    分母
    Tenlp
        390
    Tenlp  
       Apr 1, 2021 via Android
    做个分母
    huanglm
        391
    huanglm  
       Apr 1, 2021
    分子+1
    Bronya
        392
    Bronya  
       Apr 1, 2021
    看起来好厉害的样子
    cheese
        393
    cheese  
       Apr 1, 2021
    分子+1
    VideoCloudTech
        394
    VideoCloudTech  
    OP
       Apr 1, 2021
    @yanfany 训练阶段:
    8 块 V100/P100 这种等级的显卡,训练时间在 37 小时左右(静态图像预训练 25 小时,视频训练 12 小时)。

    测试阶段:
    118ms/frame
    mfy
        395
    mfy  
       Apr 1, 2021
    分子+1
    adsltsee
        396
    adsltsee  
       Apr 1, 2021
    分子分子
    star1
        397
    star1  
       Apr 1, 2021
    我估计是分母!
    createRandom(10,0,397)
    [381, 53, 383, 183, 347, 323, 286, 189, 217, 142]
    duzhanguan
        398
    duzhanguan  
       Apr 1, 2021
    分子
    duzhanguan
        399
    duzhanguan  
       Apr 1, 2021
    我还以为天线宝宝
    art2cat
        400
    art2cat  
       Apr 1, 2021
    分子来了
    1  2  3  4  5  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4320 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 453ms · UTC 10:06 · PVG 18:06 · LAX 03:06 · JFK 06:06
    ♥ Do have faith in what you're doing.