• 请不要在回答技术问题时复制粘贴 AI 生成的内容
VisionTheta
V2EX  ›  程序员

有搞深度学习的朋友吗,你们训练模型的时候都在干什么啊?

  •  
  •   VisionTheta · Aug 28, 2018 · 9801 views
    This topic created in 2840 days ago, the information mentioned may be changed or developed.

    楼主最近在训(tiao)练(can)一个模型,因为训练量比较大,基本 3~4 天一个模型。虽然我知道,我盯着它看也不会起什么作用,但作为一个如果有快递,一天要刷新好几遍快递配送信息的人,模型基本也是半小时盯一次,尤其是这组超参比较管用、或者新实现了一个功能等。

    看在哪里训练了,如果在工位机上训练,基本显存占满了,机器开个 chrome 或者 vscode 也会比较卡。所以,对我来说,工位机这种半残废的状态,基本做不了其他的什么了。如果在服务器上训练,盯着的就是模型掉没掉,虽然卡多,但是排队用的人也多啊,一会儿不看,你模型掉了,别人就来训练了。

    V 友们在训练模型的时候都在同期做什么啊?我见过有研究新论文的,有划水的,写博客的,像我一样不断盯模型的。当然,我觉得一直盯模型,有一点好处,就是对走势把握的比较准,虽然现在也有early_stop,但是调超参过程中,多看一些曲线的走势还是能积累不少经验的。

    你们都在哪里训练自己的模型呢?服务器端你们有调度软件或者预约系统吗?当然,如果在大厂的话,机器多,估计也有集群管理软件。

    想听听你们的声音!

    37 replies    2019-11-11 16:04:55 +08:00
    JeffKing
        1
    JeffKing  
       Aug 28, 2018 via iPhone
    划水 喝茶 吃饼干🍪
    yvanst
        2
    yvanst  
       Aug 28, 2018 via Android
    心安理得地玩手机
    diggerdu
        3
    diggerdu  
       Aug 28, 2018
    睡觉,看看 V2EX 扭腰时报 reddit/r/machinelearning
    delectate
        4
    delectate  
       Aug 28, 2018
    撸铁。
    udumbara
        5
    udumbara  
       Aug 28, 2018 via Android
    写部署代码
    frinstioAKL
        6
    frinstioAKL  
       Aug 28, 2018
    虽然计划好利用这个空闲去读论文,学学代码什么的,但是总忍不住隔三差五去看看 acc 和 loss 曲线,心里总是很挂念,忍不住。
    Weny
        7
    Weny  
       Aug 28, 2018 via iPhone   ❤️ 12
    送外卖啊 还能补贴家用
    fl2d
        8
    fl2d  
       Aug 28, 2018
    主显示器上,一个窗口是各种曲线,一个窗口哗哗的打印各种实时数据。以此证明我在干活。
    其他显示器上,想干嘛干嘛。
    SuYia
        9
    SuYia  
       Aug 28, 2018
    easylee
        10
    easylee  
       Aug 28, 2018 via Android
    建议分布式运算。
    ZRS
        11
    ZRS  
       Aug 28, 2018
    当然是摸鱼啊
    vipfts
        12
    vipfts  
       Aug 28, 2018
    女朋友
    VisionTheta
        14
    VisionTheta  
    OP
       Aug 28, 2018   ❤️ 1
    @easylee 现在是三台机都在算,但是分布式会比单机多卡这种降低准确率,所以如果刷榜的话,我觉得还是不用分布式好。

    @fl2d 我一般不把终端放在窗口最上方,怕误触个什么组合键,把训练打断。

    @frinstioAKL 哈哈哈,我是每 30 分钟 summary 一次,比你看的还勤。

    @udumbara 你是说写其他机器 /超参训练过程的部署代码,还是说写测试阶段的代码,亦或是模型部署,用在产品上。。

    @Weny 还能上班去送外卖了?羡慕。
    frinstioAKL
        15
    frinstioAKL  
       Aug 28, 2018   ❤️ 1
    @VisionTheta 我是把主机的 ssh 做了个端口转发,然后在随便一个大显示器主机上挂着主机的 tensorboard 曲线,然后。。。过一会忍不住就想去瞄一下曲线
    northisland
        16
    northisland  
       Aug 28, 2018
    写业务

    上面能给出跑起训练的空闲,我都万分感谢了
    UN2758
        17
    UN2758  
       Aug 28, 2018
    当然是扣 jio,扣鼻屎啦 XD
    mogami18
        18
    mogami18  
       Aug 28, 2018
    当然是不断优化代码啦
    VisionTheta
        19
    VisionTheta  
    OP
       Aug 28, 2018
    @mogami18 是代码层面的还是什么层面?如果是从开源项目上,我觉得没有什么可以改得了啊。。如果是超参层面,一般我这组超参调完之前,是不会想新的思路的,有了思路也没卡练。

    @frinstioAKL 我也开了 board,但一般都等不及刷新,去控制台看,哈哈

    @janxin 我改 tensorflow 代码的时候也要从头编译,工位机编译一次要半个小时。
    mogami18
        20
    mogami18  
       Aug 28, 2018
    @VisionTheta 我之前是做过一点 parameter server engine 研发,所以我个人只能从性能上优化系统本身实现,而优化不了算法和参数,哈哈哈
    sangleft
        21
    sangleft  
       Aug 28, 2018
    学生表示会刷 leetcode 和论坛。。
    icylogic
        22
    icylogic  
       Aug 28, 2018
    我们服务器够每个人用,所以不用排队。。。当然也可能你们网络本身就需要很多服务器,我们网络小,一人一块卡就够;
    我是在服务器上开 vscode/nsight,X11 回来,只要加了 -C,同时开四五个基本和在本地用没太大差别;
    这行工位上的台式机基本就是用来开 shell 和浏览器的。我工位上四个显示屏,1 号看浏览器,2 号开 terminator 切分几个 shell,3 号竖屏看代码和文档,4 号是个 windows 笔记本用来处理些别的事;
    写其他代码、看书 paper 文档、发呆、和同事聊些工作上的事……
    WeberXie
        23
    WeberXie  
       Aug 28, 2018
    @mogami18 兄弟在哪个厂,想和你交流下
    mogami18
        24
    mogami18  
       Aug 28, 2018
    @WeberXie 上面 ps 开发的皮毛都是我在本科念书的时候学的,我们当时本来是想借鉴 NSDI 2017 里面 TuX2 的这个系统,也搞一个用 distributed graph mining system 来做得比 ps 更快更好的系统,可惜后来系统胎死腹中,老板不支持,说没有创新性,发不了好 paper。我现在也就能吹吹我作为 co-author 发表的 eurosys 和 tpds 的 paper 了。。。
    mogami18
        25
    mogami18  
       Aug 28, 2018
    @WeberXie 另外我现在做的很简单,在厂里用 linux C++每天撸撸倒排索引引擎(extremely trivial 的那种),目前在考外语,准备找机会年后重回学校找个有 funding 的老板资助我读书呢
    mogami18
        26
    mogami18  
       Aug 28, 2018
    @WeberXie[email protected] 可以 email 相互认识下
    closedevice
        27
    closedevice  
       Aug 28, 2018
    和学妹聊天啊
    t6attack
        28
    t6attack  
       Aug 29, 2018
    编译中~ 扫描中~ 渲染中~ 备份中~ 导入中~ 爬取中~ 训练中~。。。
    悠闲的计算机工作者
    dangyuluo
        29
    dangyuluo  
       Aug 29, 2018
    你应该做一个 Telegram 通知,这样就不用随时盯着了。好使
    mogami18
        30
    mogami18  
       Aug 29, 2018
    @dangyuluo 我读 phd 的同学,做了一个微信 bot,train 完直接发微信消息,lol
    jinyu121
        31
    jinyu121  
       Aug 29, 2018 via iPhone
    有时候自己的程序非常奇怪,你只要盯着它,它就给你跑得好好的。你睡个午觉、吃个饭、甚至上个厕所,反正只要有一会儿不盯着,它就死给你看。

    其他情况一般是泡在 github 上。

    至于通知……没有 tg 的情况下可以用 aws 的 sns 短信通知,很简单。缺点是比较贵,大概 3 毛一条短信。楼上能把 tg 通知的代码共享一下咩?
    VisionTheta
        32
    VisionTheta  
    OP
       Aug 29, 2018
    @mogami18 是做厂里自己的引擎?你做的是单机多卡的 ps server ?这种一般是放在 CPU 上吧? 还是分布式 ps server ?跟 tensorflow 的效率比过吗? 单机多卡的 tf, 我发现用的卡越多(当然最多 8 张),启动过程越慢,现在我用 8 卡,启动一次甚至都要 10 分钟。我看了一下应该不是磁盘的锅,反倒觉得有可能是 tf 的 coordinator 的问题。

    @sangleft 哈哈,现在 leetcode 刷了多少道题了?自己刷还是跟别人一起组队刷啊?

    @icylogic 四个显示器有点壕,我是一个显示器,外加一台自己带的设备。以前工位装过两个显示器,但是后来觉得,无论看哪个地方,都有显示器的光包围着,时间长了眼睛受不了,就拆了一个。你四个显示器是怎么装的啊?上面两个,下面两个?

    @dangyuluo 我用 iOS 上的一个叫`Bark`的 app, 也可以推送模型的训练效果,还可以推送哪个模型掉了, 不过差不多都是 get 或者 post 一个请求。但是这种我只传了一个当时的准确率,感觉 board 的话,还可以把趋势图拟合出来,还是喜欢 board 多一些。

    @jinyu121 我的模型要三四天,我发现是分白天和晚上。如果晚上涨了很多,你白天高高兴兴的去上班,结果一天都在抖。如果晚上没涨,你打算去换一组参数,结果一直涨个不停,不给你停的机会。。
    mogami18
        33
    mogami18  
       Aug 29, 2018
    @VisionTheta 厂里可没有专攻系统方向的博士做这些,所以厂里用的都是开源的系统。上面那些都是我读本科的时候,跟着当时带我的 phd 师兄们一起做的。至于 ps 系统,对比的主要是 petuum parameter server 的开源版本 bosen 等系统。
    mogami18
        34
    mogami18  
       Aug 29, 2018
    @VisionTheta 楼主可以看看 VLDB 2018 FlexPS 这篇 paper,有开源实现的
    icylogic
        35
    icylogic  
       Aug 30, 2018 via iPhone
    @VisionTheta 从左到右排开啊,半环绕的效果。。。
    反正公司显示器在库房放着也是吃灰。不如拿来用。。
    icylogic
        36
    icylogic  
       Aug 30, 2018 via iPhone
    @VisionTheta 长时间看显示器这个事,本来坐半个小时就应该起来活动一下,打个水上个厕所之类的。
    achersion
        37
    achersion  
       Nov 11, 2019
    当然是不断的划水, 看小说,刷副本了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2930 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 73ms · UTC 12:52 · PVG 20:52 · LAX 05:52 · JFK 08:52
    ♥ Do have faith in what you're doing.