求一个面向非码农的爬虫入门 Tutorial - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3827 days ago, the information mentioned may be changed or developed.

最近身边好多法学啊，经济的同学问能不能学习一下爬虫的姿势，这样以后搜集资料就不需要老是复制粘贴这样的体力劳动了。于是就想来看看有木有符合这样需求的 tutorial ，大家可以 share 一下呢~

26 replies • 2016-02-16 14:59:06 +08:00

1

GG668v26Fd55CP5W

Feb 10, 2016 via iPhone

自己做个爬虫系统，教他们写正则表达式

2

xcodebuild

Feb 10, 2016

@falcon05 正则表达式不适合处理爬下来的 HTML

3

wdlth

Feb 10, 2016

可以试试 XPath

4

gamexg

Feb 10, 2016

那么用 xpath ，有浏览器插件可以自动生成 xpath 表达式。
但是还是需要正则或* ? 做一些提取。

5

gaocegege

OP

Feb 10, 2016

正则还是 Xpath ，都是需要教才能用的嘛，有什么教不会写代码的人用这样的技术的文档么 0;0
总不能来一个，教一个吧

6

WildCat

Feb 10, 2016 via iPhone

pyquery 比较适合？

7

fengxiang

Feb 10, 2016 via Android

直接用火车头得了

8

XadillaX

Feb 10, 2016 via Android

nodejs + cheerio

9

scarlex

Feb 10, 2016

试试 Nightmare.js

10

ericls

Feb 10, 2016

1

https://segmentfault.com/a/1190000002544142
写过一篇面对入门的

11

ammzen

Feb 10, 2016

看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨，我觉得他们需要的可能不是爬虫，而是快捷保存资料的工具。
Evernote 插件用好，完全可以保存重点内容与出处（ URL ）。
要么就去找选中即保存的那种工具，浏览完网页后，重要的东西都已经存下来了。

12

zog

Feb 10, 2016

我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题.

13

Tink

Feb 10, 2016

其实主要还是要教他们处理 js 生成的内容

14

Jimrussell

Feb 10, 2016 via Android

好的回答总是简单的，比如 7 楼。再加个按键精灵好了。

15

imn1

Feb 10, 2016

你需要搞清楚需求，你确定他们真的需要一个爬虫么？
他们可能更需要的是一个后台获取文档、前台截取主要部分（去除无关内容）的工具
个人觉得他们对文字阅读还是有必要的，但爬虫往往却是忽略“阅读”
可能一个离线浏览器+笔记类工具会更合适，文章采集器可能合适，不过我不太了解

同质（指 HTML 结构）少于 1000 都无必要学习爬虫，成本更高
先弄清需求吧

16

Exin

Feb 10, 2016 via iPhone

仔细想了想，我认为他们还是高估了爬虫的能力。也许他们只是需要 Google 提高搜索效率。

17

chemzqm

Feb 10, 2016

学校里论文系统不一定是基于 http 的，渲染也未必是基于 html 。
就算是 html 页面抓出来格式化，选取段落才是真正麻烦的地方

18

C0VN

Feb 10, 2016

pyspider

http://blog.binux.me/2015/01/pyspider-tutorial-level-1-html-and-css-selector/
http://blog.binux.me/2015/01/pyspider-tutorial-level-2-ajax-and-more-http/

还有一个不用写代码的在线运行的内容抓取网站，找不到了。。。

19

lemonda

Feb 10, 2016

@xavierskip
是这个么？
import.io

20

kslr

Feb 10, 2016 via Android

雇佣我

21

C0VN

Feb 10, 2016

1

@lemonda 找到了！是 kimono https://www.kimonolabs.com/

22

sadscv

Feb 10, 2016

@xavierskip 这个好、完全图形化界面。

23

zacks

Feb 10, 2016

同样推荐 pyspider 。可以通过点击网页或者代码进行爬虫。

24

ctrainr

Feb 10, 2016

1

国内：火车头八爪鱼；国外 import.io kimono visualscraper datascraping.co parsehub mozenda

25

wizardforcel

Feb 10, 2016

我现在用 node+cheerio ，但是也得懂选择器，它比起 xpath 来说对程序员更友好一点，但是对于非程序员来说还是天坑。

唯一的办法就是做个自动化的工具给他们。

26

C0VN

Feb 16, 2016

kimono 要关闭他的公共服务了 https://www.kimonolabs.com/

xpath 可以直接在 chrome 浏览器检查元素直接获取， css 选择器或者 xpath 随便生成。

About · Help · Advertise · Blog · API · FAQ · Solana · 5480 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 80ms · UTC 09:09 · PVG 17:09 · LAX 02:09 · JFK 05:09
♥ Do have faith in what you're doing.