V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
sjmcefc2
V2EX  ›  程序员

有没有这样一款软件或者开源代码,可以按照输入的网站进行爬取,并根据设定的主题进行内容分类?

  •  
  •   sjmcefc2 · Dec 19, 2020 · 2653 views
    This topic created in 1954 days ago, the information mentioned may be changed or developed.
    10 replies    2020-12-20 14:33:39 +08:00
    Hansah
        1
    Hansah  
       Dec 19, 2020 via Android
    软件没有,人可以做到,一般我们称之为乙方。

    你不可能凭意念驱动软件对吧。。。
    lithiumii
        2
    lithiumii  
       Dec 19, 2020
    任意网站的话不太行
    指定网站(比如淘宝京东知乎微博……)其实是有的,百度搜爬虫软件之类的应该就能搜到,还有挺多公司做这种的。
    不过你得花钱,当然钱加够也有定制爬虫的服务
    dswyzx
        3
    dswyzx  
       Dec 19, 2020 via iPhone
    github 用爬取对象搜一搜,也许有白嫖的可能
    SaltyLeo
        4
    SaltyLeo  
       Dec 19, 2020
    招个应届生就可以了,想什么网站什么网站,想要什么数据就什么数据。觉得速度慢了,就换个新的。
    mamahaha
        5
    mamahaha  
       Dec 20, 2020
    要是不用登录的网站,应该很多
    no1xsyzy
        6
    no1xsyzy  
       Dec 20, 2020
    非单一软件,也可能不符合楼主要求(因为楼主的信息实在不明确):
    1. 自动爬虫我记得 V 站上有人分享创造过,主要是基于“相似且并列的元素”,可以转成 RSS
    2. 然后用第三方聚合器的 filter 功能进行分类。
    mumbler
        7
    mumbler  
       Dec 20, 2020 via Android
    火车采集器
    annielong
        8
    annielong  
       Dec 20, 2020
    任意一个采集工具都能实现,但是非常细节的定制分类,是没有通用的,需要自己处理
    sjmcefc2
        9
    sjmcefc2  
    OP
       Dec 20, 2020
    @annielong 不用忒别 细节,只要是在网页里面有某些关键词就可以归为一个主题
    veike
        10
    veike  
       Dec 20, 2020 via Android
    文本分类器?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5627 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 91ms · UTC 08:36 · PVG 16:36 · LAX 01:36 · JFK 04:36
    ♥ Do have faith in what you're doing.