rogeecn
V2EX  ›  PHP

V 友们,问个关于小说采集的问题?

  •  
  •   rogeecn · Sep 29, 2014 · 4810 views
    This topic created in 4281 days ago, the information mentioned may be changed or developed.
    很想知道那些小说采集站点都是从哪里采集的资源。
    关于版权的问题他们怎么解决。
    服务器放在国内的采集站怎么解决当前版权问题?
    zqjilove
        1
    zqjilove  
       Sep 29, 2014
    1、起点等几大知名的小说平台,付费账户采集(其中一种情况)。
    2、不解决,权当不知道来源,再写一个免责申明什么的自欺欺人。
    3、没什么好的建议,很难完全避免,除非明确抓取没有版权限制的内容。
    tabris17
        2
    tabris17  
       Sep 29, 2014
    起点以前的被盗的小说都是图片格式的,现在好像都是文字的了,难道是OCR出来的?
    faceair
        3
    faceair  
       Sep 29, 2014
    @tabris17

    贴吧有人肉转码,然后有些小说站从贴吧抓(也可能是人肉更),然后更多的小说站从这些小说站抓,基本就是互相爬

    版权问题就不要想了,或者你把自己伪装成搜索引擎,现在UC的神马搜索、QQ浏览器自带的小说都是这么干的
    pythoner
        4
    pythoner  
       Sep 29, 2014
    我大采集圈的脸都被那帮垃圾站给丢光了
    pockry
        5
    pockry  
       Sep 29, 2014
    采集小说可以,个人看看就行,别提供到网上。真要捉你,你能进去。
    gamexg
        6
    gamexg  
       Sep 29, 2014
    @faceair 应该是机器OCR ,新内容出来搜索引擎10分钟内就能搜到盗版。人工做不到这么快。贴吧速度也没有盗版小说站快。
    qiayue
        7
    qiayue  
    PRO
       Sep 29, 2014
    @gamexg 贴吧手打组,内容出来一分钟之内截图,分配任务,一人一百字左右,十分钟完全足够
    09年注册了一个女号混进了一个手打组卧底半个月
    lookhi
        8
    lookhi  
       Sep 29, 2014
    哪里需要那么麻烦,起点有个bamboo电纸书...
    GhostFlying
        9
    GhostFlying  
       Sep 29, 2014
    顺带起点我记得有段时间提供过文字版的vip,在移动端,不过不知道现在怎么样
    dangge
        10
    dangge  
       Sep 29, 2014 via Android
    @GhostFlying 已经关了 上架后就是一小块一小块图片了 不过字体很容易识别。
    Daniel65536
        11
    Daniel65536  
       Sep 29, 2014 via iPhone
    走Win版云中书城的接口,可以获得简单加密的文本。
    走wap版起点可以获得纯文字版文本,无加密,有概率图片。
    图片版字体是方正启体简体,知道这个就很容易ocr了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1075 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 110ms · UTC 17:56 · PVG 01:56 · LAX 10:56 · JFK 13:56
    ♥ Do have faith in what you're doing.