• 请不要在回答技术问题时复制粘贴 AI 生成的内容
liufish
V2EX  ›  程序员

某些网站把个人博客的文章爬去了,不带原文链接,如何应对?

  •  
  •   liufish ·
    rustfisher · Nov 1, 2019 · 7779 views
    This topic created in 2409 days ago, the information mentioned may be changed or developed.

    话说,某些网站把个人博客的文章爬去了,放在他们自己网站上,还不带原文链接,这个怎么应对呢?

    42 replies    2019-11-04 10:56:25 +08:00
    murmur
        1
    murmur  
       Nov 1, 2019
    只能不写,没办法,君不见啊*云 等大网站都大量爬取外国网站翻译后当 seo 用 整个行业都这样 你能怎么办
    aocif23
        2
    aocif23  
       Nov 1, 2019   ❤️ 3
    我想到了百度知道的骚招,让部分文字变成图片。
    opengps
        3
    opengps  
       Nov 1, 2019   ❤️ 1
    我反正是为了防这个,原文的连接总是故意作为内容带在文章末尾。
    shiny
        4
    shiny  
    PRO
       Nov 1, 2019   ❤️ 1
    找些版权平台,类似快版权之类
    caijunyi
        5
    caijunyi  
       Nov 1, 2019
    维权骑士
    secondwtq
        6
    secondwtq  
       Nov 1, 2019   ❤️ 2
    在原文内容中插入一些比较和谐的片段,谁爬谁倒霉

    ... 反正思路大体如此
    一个旧闻:歌词协作共享平台 Genius 怀疑搜索引擎 Google 一直在剽窃他们网站上的歌词,于是他们选了一些歌词,以摩尔斯码的规律替换其中的单引号字符为直引号和弯引号,并监测 Google 的搜索结果,发现这些引号的变化同样出现在 Google 的结果中,于是就发出了 complaint,第二天发现 Google 上面那些零宽字符消失了 :)

    当然个人就算能掌握证据也不能怎么样,所以就只能借助那只无形的大手的力量
    1239305697
        7
    1239305697  
       Nov 1, 2019   ❤️ 1
    还好我都加了原文地址的
    xkzhangsan
        8
    xkzhangsan  
       Nov 1, 2019
    现在爬虫是违法的,可以告他们
    Jirajine
        9
    Jirajine  
       Nov 1, 2019 via Android   ❤️ 1
    放敏感内容,等他爬完删掉然后举报。
    linvaux
        10
    linvaux  
       Nov 1, 2019
    开玩笑,看看 csdn,毒瘤啊
    opengps
        11
    opengps  
       Nov 1, 2019
    歪个楼,楼主的头像能不能设计的认真点!
    mamahaha
        12
    mamahaha  
       Nov 1, 2019
    摇人,打他
    slanternsw
        13
    slanternsw  
       Nov 1, 2019   ❤️ 1
    推特上流行喝茶内容反盗图,不过要小心自己吃到赵弹打击
    Monkey2020
        14
    Monkey2020  
       Nov 1, 2019   ❤️ 1
    自己在文章中留下自己的原文地址; 最好写系列文章;然后文章里面外链引用一下自己之前发的文章;这样被爬取了,也能看到你的原文的
    jimmy3780
        15
    jimmy3780  
       Nov 2, 2019 via iPhone
    不知道国外的主机能不能发出 DMCA 的侵权通知,如果接受的话对方就会被拔网线了

    是国外,一般是美国的主机商

    国内不清楚
    BrightSphere
        16
    BrightSphere  
       Nov 2, 2019 via Android
    更改一套字体映射
    liufish
        17
    liufish  
    OP
       Nov 2, 2019
    多谢各位回复。我回头在文章里做做内容好了。
    Varobjs
        18
    Varobjs  
       Nov 2, 2019 via Android
    隔几段就把后一段变成图,记不影响体验,被抓了换图
    liufish
        19
    liufish  
    OP
       Nov 2, 2019
    @opengps 爬文章的人特意把链接删掉了。
    我的头像是很认真设计了的。
    ThomasZ
        20
    ThomasZ  
       Nov 2, 2019   ❤️ 1
    恩不写原文链接的是挺没道德的,盗用他人文章样然后说自己原创的不仅没有道德还没有素养
    要不楼主试试直接全文图片带特大号水印的方式, 代码什么的给上 gits 或者 github 的链接这样
    liufish
        21
    liufish  
    OP
       Nov 2, 2019
    @1239305697 他们非常贴心的把原文地址删了。
    dandycheung
        22
    dandycheung  
       Nov 2, 2019 via iPhone
    曾被推酷这么干过,给他们发邮件就搞定了。觉得还是尽量先直接联系他们吧。
    skiy
        23
    skiy  
       Nov 2, 2019
    现在很多人不爱写博客了,因为流量都没到这边来。百度权重永远是给 CSDN 之流的,估计是交了保护费吧
    mydearbaby
        24
    mydearbaby  
       Nov 2, 2019 via Android
    这个还是要从根本上解决,早两年也做过一些抓取,楼上说的什么插图片不解决问题,对方可以把图片本地化。这个要先确认下对方是用的什么方法抓去的,html 标签提取,还是 xpath,有没有用代理。如果对方用的标签提取,你不考虑 seo 的话,文章内容写一个打乱排序的方法或者加密方法,结合 js,重置排序或者解密,不影响用户阅读体验,但是他抓去之后就乱了。如果是 xpath 提取,大概率是能直接提取你给用户最终呈现的效果,乱序和加密解密没意义。那没办法,只能封 ip,做策略,限制访问。
    reus
        25
    reus  
       Nov 2, 2019 via Android
    起诉
    reus
        26
    reus  
       Nov 2, 2019 via Android
    @xkzhangsan 爬虫不违法,爬个人信息才违法。爬虫违法的话,百度就不用干了
    MikeLei
        27
    MikeLei  
       Nov 2, 2019
    阿里云爬的文章,真的是垃圾中的战斗机,有时候里面就是零零散散完全没有意义的几个字,有时候里面压根就没有任何内容,只有标题是搜索的目标词,都是目录导流到其它页面的词条,真的是垃圾。
    isukkaw
        28
    isukkaw  
       Nov 2, 2019
    把你自己网站的权重做到足够高,这样不论他们怎么爬取,都没有办法和你竞争 SEO。
    luckylo
        29
    luckylo  
       Nov 2, 2019 via Android
    转图片?上水印?
    greatbody
        30
    greatbody  
       Nov 2, 2019
    爬虫是违法的。除非你的网站里面没有写 rebot.txt
    LZSZ
        31
    LZSZ  
       Nov 2, 2019
    放些广告试试?
    tabris17
        32
    tabris17  
       Nov 2, 2019
    把原文链接以 0px 的大小嵌入正文
    superrichman
        33
    superrichman  
       Nov 2, 2019 via iPhone
    @Jirajine 这操作太骚了
    FantasyPupil
        34
    FantasyPupil  
       Nov 2, 2019
    @reus 爬虫需要遵守 robots.txt 规则,只要遵守了就不违法。 主流的搜索引擎都遵守的。
    Epsil0n9
        35
    Epsil0n9  
       Nov 2, 2019
    @shiny

    "看了一下这位蒋律师的历史回答,就是快板的人。这是帮律师开的公司,收购作者报刊上的旧文章版权,然后散播到网上。因为作者知名度一般,原文章首发于地方报纸,刊登内容为生活常识小科普。导致网上大多数公众号运营无法判断来源,同时也觉得这种日常生活文章没有过多原创性。转载后,该公司会恶意发函,对公众号索要高达 3000 的侵权费,同时该公司位于杭州垄断了 80%的杭院互联网起诉案,全靠这种无赖起诉法,被告多为内蒙北京等远地,又会驳回异审申诉,导致被告打官司成本过高,只能吃哑巴亏。收益全部被该公司获得,作者只有当初卖的稿费。说白了就是买旧文章处找中小企业碰瓷的公司,钻了法律的漏洞,屡试不爽,用同一篇文章已经起诉了上百家企业,一个打着“保护原创”的流氓公司。"

    作者:匿名用户
    链接: https://www.zhihu.com/question/59277574/answer/227023845
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    Cielsky
        36
    Cielsky  
       Nov 2, 2019 via Android
    @aocif23 百度知道的答案就是百度百科啊,维基百科等地方复制过来的
    shiny
        37
    shiny  
    PRO
       Nov 2, 2019
    @Epsil0n9 之前差评洗稿,霍炬维权就是找的快版权。
    encro
        38
    encro  
       Nov 2, 2019
    如果被百度收录了,去百度举报。
    yingfengi
        39
    yingfengi  
       Nov 2, 2019 via Android
    我的小破站也被爬了,我去留言要脸吗,作者回复不要。。。。。
    xdaoo
        40
    xdaoo  
       Nov 4, 2019 via iPhone
    文章用 canvas 画出来
    liufish
        41
    liufish  
    OP
       Nov 4, 2019
    一个比一个硬核了。我这只是个 hexo 做的静态博客而已 [捂脸
    janyin
        42
    janyin  
       Nov 4, 2019
    阿里云 seo 很厉害呀
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2980 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 101ms · UTC 03:07 · PVG 11:07 · LAX 20:07 · JFK 23:07
    ♥ Do have faith in what you're doing.