douglas1997
V2EX  ›  问与答

有没有类似于 Safari 正文阅读模式的提取库推荐( Python )?

  •  
  •   douglas1997 · May 24, 2017 · 1302 views
    This topic created in 3317 days ago, the information mentioned may be changed or developed.

    最近看到一些比较好的文章打算记录一下, Safari 阅读模式做的是十分出色的。我想的是只把图片留下标签, 其他的全部转为文本。

    我已经尝试了 Readability, newspaper 和一些基于行块分布函数的通用网页正文抽取算法的代码, 感觉效果不太好(相对于 Safari 的阅读模式)。大家有什么好的库推荐没有呢?

    谢谢。

    1 replies    2017-05-24 18:49:54 +08:00
    polythene
        1
    polythene  
       May 24, 2017   ❤️ 1
    安利一个我自己写的库: https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor,目前我用它来提取 hacker news 上各种链接的正文,效果还挺好的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3922 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 00:17 · PVG 08:17 · LAX 17:17 · JFK 20:17
    ♥ Do have faith in what you're doing.