V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
puorg
V2EX  ›  程序员

自己开发的开源百度网盘爬虫程序

  •  1
     
  •   puorg ·
    callmelanmao · Nov 21, 2016 · 5149 views
    This topic created in 3444 days ago, the information mentioned may be changed or developed.

    用 node.js 历时一个星期左右开发的这个项目,自我感觉还不错,有兴趣的以前交流下 nodejs 开发经验

    github 地址: https://github.com/callmelanmao/yunshare

    在线百度网盘搜索地址:百度网盘搜索

    在 V2EX 的另外一个节点也发了帖子,都没有什么人一起交流,希望管理员不要删帖,谢谢。

    21 replies    2016-11-30 18:45:29 +08:00
    xiaoyu9527
        1
    xiaoyu9527  
       Nov 21, 2016
    速度很快呀
    araraloren
        2
    araraloren  
       Nov 21, 2016
    ~~ 看起来还不错的样子,不过这个东西好多
    crab
        3
    crab  
       Nov 21, 2016
    搜索结果怎么偏离那么多啊。
    搜索:当我想你的时候.MP3
    puorg
        4
    puorg  
    OP
       Nov 21, 2016   ❤️ 1
    @crab 你试试搜索音乐, elasticsearch 太占服务器内存了,我只索引了 title 字段,使用的是 ik 分词插件,还没做优化
    TKKONE
        5
    TKKONE  
    PRO
       Nov 21, 2016
    a-ads.com 的广告单价高吗?
    puorg
        6
    puorg  
    OP
       Nov 21, 2016
    @tumbzzc 很低的,服务器费用是赚不回来了
    letitbesqzr
        7
    letitbesqzr  
       Nov 21, 2016
    elasticsearch 快是快... 实在太耗内存了.. 放在云服务器的话 开销太大
    klxq15
        8
    klxq15  
       Nov 21, 2016 via Android
    爬一会就会被百度封 ip ,你是怎么解决的
    puorg
        9
    puorg  
    OP
       Nov 21, 2016
    @klxq15 休眠几秒
    klxq15
        10
    klxq15  
       Nov 21, 2016 via Android
    @puorg 具体是几秒呢?
    huangfs
        11
    huangfs  
       Nov 21, 2016
    elasticsearch 几台机器啊
    eoo
        12
    eoo  
       Nov 21, 2016 via Android
    挂了?
    glogo
        13
    glogo  
       Nov 22, 2016
    一直好奇这种站的基本原理是啥,楼主能否分享下?
    regent
        14
    regent  
       Nov 22, 2016
    链接有效性会不会定期验证?
    cxydhd
        15
    cxydhd  
       Nov 22, 2016
    对这个项目挺感兴趣的,你的服务器内存有多大?第一次接触 nodejs ,你开源的源码的搜索入口是在哪个文件里?
    puorg
        16
    puorg  
    OP
       Nov 22, 2016
    @cxydhd mongodb 保存在本地, elasticsearch 服务器 3g 内存,这个项目不带 web 界面的,只有爬虫和建立 elasticsearch 索引部分
    cxydhd
        17
    cxydhd  
       Nov 22, 2016
    @puorg 哦哦,我前端知识比较小白,那如果我加个界面测试,怎么调用这个项目的
    puorg
        18
    puorg  
    OP
       Nov 22, 2016
    @cxydhd 现在这个文档写的比较粗糙,我过几天再写个更详细的, web 端调用你只要看 elasticsearch 的 mapping 文件就行了,在 data 文件夹下面,前提是你已经正确安装这个项目,并且建立好索引
    enenaaa
        19
    enenaaa  
       Nov 22, 2016
    elasticsearch 搜索速度真是快啊。
    楼主现在数据是多大量级的。我一个 10w+的数据用 redis+mysql 感觉太慢了。 当然我服务器比较渣, 不太敢上 elasticsearch
    puorg
        20
    puorg  
    OP
       Nov 22, 2016
    @enenaaa 用的就是普通服务器, 只要内存够, es 的搜索速度就是很快, 数据量目前 600W
    cxydhd
        21
    cxydhd  
       Nov 30, 2016
    @puorg hi ,问下你大概多大的数据量需要考虑清除掉一部分数据?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   952 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 55ms · UTC 20:54 · PVG 04:54 · LAX 13:54 · JFK 16:54
    ♥ Do have faith in what you're doing.