• 请不要在回答技术问题时复制粘贴 AI 生成的内容
leihongjiang
V2EX  ›  程序员

聚合多个的网站最新文章入库 然后自己索引可以搜索到 有什么办法能够实现吗.

  •  
  •   leihongjiang · Jun 15, 2020 · 1532 views
    This topic created in 2204 days ago, the information mentioned may be changed or developed.

    之前发布了两个主题

    聚合浏览网页的 PHP 源码或者软件有吗 www.v2ex.com/t/680814

    Python 爬虫 请教能实现我的这两点吗? www.v2ex.com/t/681172

    都不太理想.可能是我表达问题的方式不对.

    要求如下

    1-10 网站 自己写采集规则 采集到标题 跟链接 入库 方便自己索引

    采集到的 标题跟 url 按照抓取到的更新时间排序

    可以选择查看 1-10 某个网站所采集的全部文章(不需要内容 只需要标题 跟 url)

    应该 php 能够实现 我的需求.请指点学习方向

    Luoyuanlong
        1
    Luoyuanlong  
       Jun 15, 2020
    我之前做过 Java 论坛爬虫,多个论坛的信息抽取规则我将其分别写成一条类选择( document.select())语句,然后作为相应论坛的模板属性,爬取论坛的时候,使用 JEXL 执行此语句,得到执行结果,就是需要抽取的论坛信息。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2689 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 11:38 · PVG 19:38 · LAX 04:38 · JFK 07:38
    ♥ Do have faith in what you're doing.