V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
1722332572
V2EX  ›  OpenAI

ChatGPT 写爬虫 YYDS,三句话写完爬虫代码,再也不用自己写正则表达式了。

  •  
  •   1722332572 · Mar 23, 2023 · 3075 views
    This topic created in 1131 days ago, the information mentioned may be changed or developed.

    作为一个曾经的爬虫爱好者,最讨厌写获取各种元素的正则表达式了,或者在一堆元素中筛选需要的内容。

    ChatGPT 它来了,三句话搞定,第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。

    魔法开始,图片无法正常显示用链接代替了。

    第一句获取 http://chatnews.cn/ 所有文章列表

    http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG504.jpeg

    获取一篇文章标题和内容

    http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG505.jpeg

    设计数据库并写入 也不是完全没缺点,比如,机器人偶尔会挂掉,数据库读写部分,可以参考如下推文:

    https://mp.weixin.qq.com/s/IYsGsnGTzvhn-97F1twKrg

    整体表现,非常丝滑,强烈推荐。

    7 replies    2023-03-24 12:23:46 +08:00
    herozzm
        1
    herozzm  
       Mar 23, 2023
    真正商业爬虫 都是尽量避免用正则,比如用 jquery 类方法抓取
    rimworld
        2
    rimworld  
       Mar 23, 2023
    应该是他的资料里有爬取过这个网页的代码吧?要不然他怎么知道用选择器选择"h4 a"的
    ila
        3
    ila  
       Mar 23, 2023 via Android
    哪三句话?
    4BVL25L90W260T9U
        4
    4BVL25L90W260T9U  
       Mar 23, 2023   ❤️ 1
    看了下楼主主页,全是推广帖子……
    WinG
        5
    WinG  
       Mar 23, 2023
    楼主的套利和量化战绩如何了?
    1722332572
        6
    1722332572  
    OP
       Mar 23, 2023
    @ila 第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。
    cherryas
        7
    cherryas  
       Mar 24, 2023
    恭喜你学会了爬虫,现在在是请爬取这个有 Akamai 的网站把
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5587 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 03:45 · PVG 11:45 · LAX 20:45 · JFK 23:45
    ♥ Do have faith in what you're doing.