huruwo
V2EX  ›  问与答

个人博客被采集站疯狂采集怎么办

  •  1
     
  •   huruwo · Nov 10, 2021 · 4162 views
    This topic created in 1673 days ago, the information mentioned may be changed or developed.

    我的个人博客文章被 类似 https://cxybb.com/ 程序员宝宝

    https://www.pianshen.com/ 程序员大本营

    这种网站实时更新 我发出来立马就更新上了

    而且他的 SEO 做的非常好 同样的文章排名比我还高

    实在是被恶心到了

    Supplement 1  ·  Nov 10, 2021
    还有类似网站

    https://www.i4k.xyz/

    采用的模板都是一套的
    Supplement 2  ·  Nov 10, 2021
    我发现一个更加神奇的网站

    把我刚发的中文博客直接翻译成英文的同步过去了

    https://programmer.group/
    26 replies    2023-11-05 06:56:18 +08:00
    kimera
        1
    kimera  
       Nov 10, 2021 via iPhone
    搜索资料很多排名靠前都是这样的网站 已经把类似站点都加入黑名单了 太恶心了🤢
    bug123
        2
    bug123  
       Nov 10, 2021
    可以往里面塞点敏感的脏数据
    hidemyself
        3
    hidemyself  
       Nov 10, 2021
    有备案的采集站可以投毒
    没备案没办法,投毒也不管用
    clf
        4
    clf  
       Nov 10, 2021
    笑死了,底下还写着:网站内容人工审核和清理中!本站和 cxyzjd 等抄袭本站模板的网站没有任何关系,请注意分辨!
    Jaufey
        5
    Jaufey  
       Nov 10, 2021 via Android   ❤️ 1
    把自己名字和文章链接写到文章里面呀,免费给自己宣传
    clf
        6
    clf  
       Nov 10, 2021
    (为什么他还会爬 CSDN 的文章的呀,然后快进到 CSDN 去爬他的。
    huruwo
        7
    huruwo  
    OP
       Nov 10, 2021
    @WhateverYouLike 妙啊妙啊
    shiny
        8
    shiny  
    PRO
       Nov 10, 2021
    把爬虫找出来
    - 注入狗屁不通文章生成器的数据
    - 试试文章正文里插入 xss
    clf
        9
    clf  
       Nov 10, 2021   ❤️ 1
    可以试一下发布后修改会不会再次同步文章。

    这样可以在发布的时候默认发布自己的支付宝红包码之类的推广类的东西,然后过 N 分钟后自动更新成自己的文章?
    zhuawadao
        10
    zhuawadao  
       Nov 10, 2021
    @WhateverYouLike 他去掉的话,你就写藏头诗类的
    supuwoerc
        11
    supuwoerc  
       Nov 10, 2021
    有盗版垃圾站抄你的博客,那你一定是个大佬,我的博客,得用 site:xxxxx 才能搜索到( o(╥﹏╥)o )
    loading
        12
    loading  
       Nov 10, 2021
    如果有人敢爬我的网站,我就敢投毒,p 站不是白上的。
    jason2014
        13
    jason2014  
       Nov 10, 2021
    @clf #9 用来对付这些垃圾站方法很好,可是这样可能会影响到 RSS 订阅用户。
    clf
        14
    clf  
       Nov 10, 2021 via Android
    @jason2014 rss 生成慢一点再生成呗。
    Pipecraft
        15
    Pipecraft  
       Nov 10, 2021
    pianshen 这个网站的百度权重是 6 ,好厉害!按照 #5 的思路,可以在文章里放链接,增加反链啊。楼主可以接单帮人推广了。
    patx
        16
    patx  
       Nov 11, 2021
    爬虫一般都用廉价主机商,或者阿里云腾讯云。机房的 ASN 一律屏蔽,增加爬虫成本。
    find456789
        17
    find456789  
       Nov 11, 2021
    @patx

    老哥, 机房的 asn 是什么意思, 方便展开说说吗, 我有个站,也老是被 爬
    cxy2244186975
        18
    cxy2244186975  
       Nov 11, 2021 via Android
    这种站 我已经在 v2 看到好几个人报道了~~~
    HankLu
        19
    HankLu  
       Nov 11, 2021
    诅咒他生儿子没屁眼
    terence4444
        20
    terence4444  
       Nov 11, 2021 via iPhone
    可以利用其更新原理投毒
    oo1
        21
    oo1  
       Nov 11, 2021 via iPhone
    让他来爬我!放开楼主!
    QUC062IzY3M1Y6dg
        22
    QUC062IzY3M1Y6dg  
       Nov 11, 2021
    @supuwoerc 你是不是在我身上装了监控?
    jasonkayzk
        23
    jasonkayzk  
       Nov 11, 2021
    @clf #6 递归了属于是 233
    Chipmunker
        24
    Chipmunker  
       Nov 11, 2021
    提个思路,不知道可行不。将文字内容加密,在客户端解密后转换为 SVG 图像显示。我想采集站应该不会专门针对你的站去破解了吧。
    imldy
        25
    imldy  
       Nov 11, 2021
    @Chipmunker #24 不利于搜索引擎
    kehan
        26
    kehan  
       Nov 5, 2023 via Android
    你可以做防采集设置,当然,你也可以用可汗采集插件,采集别人发的内容
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4764 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 09:45 · PVG 17:45 · LAX 02:45 · JFK 05:45
    ♥ Do have faith in what you're doing.