V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
foreverfuck
V2EX  ›  程序员

写个爬虫爬取值得买的商品和文本会被安排进去吗?

  •  
  •   foreverfuck · Apr 22, 2020 · 3652 views
    This topic created in 2197 days ago, the information mentioned may be changed or developed.

    如题,有点急,在线等

    14 replies    2020-04-23 19:52:53 +08:00
    youngs
        1
    youngs  
       Apr 22, 2020
    你都这么问了,说明你自己都知道有安排进去的风险的
    Cmdhelp
        2
    Cmdhelp  
       Apr 22, 2020
    你倒是说什么网站啊, 淘宝京东这么你就大胆爬,就你那点流量人家不 care
    easonHHH
        3
    easonHHH  
       Apr 22, 2020
    @Cmdhelp #2 标题不是说了吗,什么值得买
    radiocontroller
        4
    radiocontroller  
       Apr 22, 2020
    里面个个都是人才,说话又好听,超喜欢里面的感觉
    clockwerk
        5
    clockwerk  
       Apr 22, 2020 via iPhone
    值得买的数据不也是爬的嘛,进去了的话前后脚把他也拉进去呗
    Cmdhelp
        6
    Cmdhelp  
       Apr 22, 2020
    去吧 */p/ allow
    magicdu
        7
    magicdu  
       Apr 22, 2020
    打工是不可能打工的
    magicdu
        8
    magicdu  
       Apr 22, 2020
    @magicdu 遵循 robots 协议
    foreverfuck
        9
    foreverfuck  
    OP
       Apr 22, 2020
    User-agent: *
    Disallow: /fenlei/3cjiadian
    Disallow: /fenlei/jujiashenghuo
    Disallow: /fenlei/shishangyundong
    Disallow: /tag/%E4%BB%80%E4%B9%88%E5%80%BC%E5%BE%97%E4%B9%B0
    Disallow: /contact-us
    Disallow: /baoliao/
    Disallow: /*?*
    Disallow: /*=*
    Disallow: /jingxuan/xuan*


    Sitemap: http://www.smzdm.com/sitemap/smzdm_sitemap.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_youhui.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag1.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag2.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag3.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag4.xml
    Sitemap: http://www.smzdm.com/sitemap/smzdm_tag5.xml
    EricCartmann
        10
    EricCartmann  
       Apr 22, 2020 via iPhone
    爬人家吃饭的老本是不是有点过分。
    annielong
        11
    annielong  
       Apr 22, 2020
    流量不大,频率不高一般都没事
    zictos
        12
    zictos  
       Apr 22, 2020
    @nellace 部分可能是手动发的吧?现在不止官方的人可以发,用户也可以发布优惠商品。反正他们不数据来源不单一,所以就比单一来源的爬虫更能为自己开脱
    Stain5
        13
    Stain5  
       Apr 22, 2020
    爬虫所带来风险主要体现在以下 3 个方面:违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;爬虫干扰了被访问网站的正常运营;爬虫抓取了受到法律保护的特定类型的数据或信息。那么作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?严格遵守网站设置的 robots 协议;在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

    作者:freedomer.yu
    链接: https://www.zhihu.com/question/291554395/answer/476074383
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    tanxiaoluo
        14
    tanxiaoluo  
    PRO
       Apr 23, 2020
    去星罗好货调一把 API 呗,张大妈旗下平台
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3407 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 00:35 · PVG 08:35 · LAX 17:35 · JFK 20:35
    ♥ Do have faith in what you're doing.