pandas 如何使用已成了 str 的 html 代码？ - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2628 days ago, the information mentioned may be changed or developed.

刚开始，思路笨拙。。。望请各位高手提点了。。。
单位内网有些页面，是靠 javascript 用几个页面开关按钮，触发功能，渲染成不同表格内容，我现在要爬它全部。（在企业的内网里，给了 URL 大家都看不到）

我打算思路是这样的：
用 selenium 的 webdriver，模拟几个操作，获取各个开关触发后把渲染后的 webdriver.page____source
存成 htmlstr1,htmlstr2,htmlstr3,htmlstr4,htmlstr5 这样，然后按计划被正则处理，或者做其它什么的

以前用 pandas 在处理简单页面的时候，

import pandas as pd
PageDF = pd.DataFrame()
PageDF = PageDF.append(pd.read_html("http://10.4.8.231/PannelView.html")[7],ignore_index=True)
PageDF.to_csv('C:/Users/Administrator/Desktop/csv/PannelData.csv',encoding="utf_8_sig")

但是按照目前的知识认知，pd.read_html()只能接受 url，不能接受(str)htmlstr1

那么 pandas 如何处理 str 内容是 html 代码的数据呢？

5 replies • 2019-05-16 10:44:09 +08:00

1

binux

May 15, 2019 via iPhone

stringIO

2

qazwsxkevin

OP

May 16, 2019

@binux 谢谢，百度了一下，似乎 stringIO 是个好东西。。。，

在我的这个案例上，不知道是否有相似的例子看看了。。。

3

qinghon

May 16, 2019 via Android

那么问题是为什么不获取原始数据呢，把原始数据获取了再用 webdriver 的 js 转成 csv 再用 pandas 转成你要的数据，你不会觉得中间过程没有必要吗

4

qazwsxkevin

OP

May 16, 2019

@qinghon，解释一下为什么要做 htmlstr[1-5]，是因为服务器做了行为监测，我目前想到的办法只能一次 load 完页面，存成 5 个渲染后的 html 的 str，如果每个操作都要 webdriver 去 get(url)，会有些麻烦，不是技术上的问题，只是为了避开一些事情

5

ec0

May 16, 2019

read_html() function can accept an HTML string/file/URL

read_html 可以接收 string

About · Help · Advertise · Blog · API · FAQ · Solana · 937 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 30ms · UTC 19:53 · PVG 03:53 · LAX 12:53 · JFK 15:53
♥ Do have faith in what you're doing.