V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
icedx

深夜来吐个槽 Readability 已经两年没更新了

  •  
  •   icedx · Sep 25, 2015 · 2748 views
    This topic created in 3870 days ago, the information mentioned may be changed or developed.
    至今 Readability 的文本抓取能力依然是第一
    然而安卓客户端已经两年没更新了 还有 Bug
    Pocket 不思进取 经常丢图 很多网页不能脱水 差评
    20 replies    2015-09-25 17:09:31 +08:00
    xxm459259
        1
    xxm459259  
       Sep 25, 2015 via iPhone   ❤️ 2
    我仿照它做了一个,加了不少规则,现在对中文网页优化好很多。已经给产品用上了,反馈也不错,过段时间打算开源。
    xxm459259
        2
    xxm459259  
       Sep 25, 2015 via iPhone
    有一点比较大的区别是加了规则之后用梯度提升决策树训练的,不再是 readability 的硬规则,所以需要一些网页做训练。
    adrianzhang
        3
    adrianzhang  
       Sep 25, 2015
    IFTTT ,粘!
    missdeer
        4
    missdeer  
       Sep 25, 2015 via Android
    用 evernoteclipper
    KoleHank
        5
    KoleHank  
       Sep 25, 2015
    @pandachow 期待开源,支持
    icedx
        6
    icedx  
    OP
       Sep 25, 2015 via Android
    @pandachow 硬规则还好 我用的就是硬规则现在
    icedx
        7
    icedx  
    OP
       Sep 25, 2015 via Android
    @adrianzhang 求分享管道
    icedx
        8
    icedx  
    OP
       Sep 25, 2015 via Android
    @missdeer 那个只能网页端吧
    iugo
        9
    iugo  
       Sep 25, 2015
    红+沙发.
    一直在用.
    icedx
        10
    icedx  
    OP
       Sep 25, 2015 via Android
    @iugo 安卓端丢条目 网页端都能看到 但是就是在安卓端显示不出来 浑身难受
    missdeer
        11
    missdeer  
       Sep 25, 2015
    @icedx 抓了网页就进 Evernote 了呀
    iugo
        12
    iugo  
       Sep 25, 2015
    @icedx 我没有直接使用. 是通过 Reeder 或 gReader 使用的. 当时觉得这家伙 API 一定很棒.
    xxm459259
        13
    xxm459259  
       Sep 25, 2015
    @icedx general 来说,正文准确率还可以。但是硬规则过滤的结果其实非常依赖前端的规范与否,此时如果发现某几个网页结果不好的时候,多数情况只能单独为它加规则或者改让前端改网页,维护和修改成本不低。

    机器学习的好处在于如果不好,就拿这个网站的几个页面专门训练,直到算出来结果正确为止,最多会维护几个模型而已,。。。
    icedx
        14
    icedx  
    OP
       Sep 25, 2015 via Android
    @missdeer yep 但是只能在浏览器里抓吧… 我想丢一个链接进去 我记得是做不到
    icedx
        15
    icedx  
    OP
       Sep 25, 2015 via Android
    @iugo 求方法 我试过 gReader 但是条目还是丢 然而苹果客户端不丢
    icedx
        16
    icedx  
    OP
       Sep 25, 2015 via Android
    @pandachow 训练模式赞一个
    我一般都是从人的角度考虑的 为什么人能认出正文这样
    然后辅以数学的方法 缺点就是精度细节不够
    比如吧 切胡萝卜 我的方法可以把头尾直接切掉 每次离最好的情况差一点点
    adrianzhang
        17
    adrianzhang  
       Sep 25, 2015
    @icedx 不需要分享的吧?有很多公共的 readability 2 pocket 一类的 receipts.
    icedx
        18
    icedx  
    OP
       Sep 25, 2015 via Android
    @adrianzhang 去搜下😂
    xxm459259
        20
    xxm459259  
       Sep 25, 2015   ❤️ 1
    @icedx 对的,从人的角度去出发是无比正确的逻辑。之前还有一个实验性的项目很有趣,是根据人眼停留时间来学习,但是好像没有下文……
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2760 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 13:53 · PVG 21:53 · LAX 06:53 · JFK 09:53
    ♥ Do have faith in what you're doing.