爬虫遇到在浏览器中刷新三次页面才能打开的网站怎么办,第一次刷新,粉丝,关注,作品全是 null,第二次也是 null,第三次刷新才能拿到具体的数值,有大佬分享下思路吗? https://live.kuaishou.com/profile/3xsm4gufvu5cfhm
1
ranlele OP 这是快手的个人信息页面
|
2
matthewz Jul 8, 2019
设置 cookie 就行了啊
|
3
ranlele OP 自己尝试的第一次访问,返回 did,第二次,第三次带着 did 使用 session 访问,依然获取不到数据。
|
4
Takamine Jul 8, 2019
那就用 selenium 刷新三次页面怎么样:doge:。
|
5
holajamc Jul 8, 2019
Cookie 变化 用 mitmproxy 抓包康康
|
6
ranlele OP selenium 开无头模式就不行。不开无头模式可以使用 did 参数。 cookie 没有变化。
|
7
holajamc Jul 8, 2019 https://zhaoji.wang/how-to-detect-chrome-headless/
|
9
TypeErrorNone Jul 8, 2019 说明返回数据不是用的 url 参数,是根据 cookie 中的数据来获取的。
你每次有新的 url 就先访问下,记录 cookie,再带着 cookie 访问一次拿数据。 |
10
ranlele OP @TypeErrorNone 我觉得,可能就是对这个 cookie 中的数值进行操作的。刷新三次,发送了好多个请求,我现在在模拟这些请求。
|
11
opengps Jul 9, 2019
等待时间不够所以为 null 吧,加点延时进去再爬取
|
12
keji Jul 9, 2019 via Android
带上 cookie did 应该就可以了
|