#-*-coding:utf-8-*-
htmlstr=
'''
。。。
</td>
</tr>
</table>
<ul>
<li>
<a></a>
<a></a>
</li>
</ul>
。。。
<td>页次
'''
ksstr='</table>\n<ul>\n<li>'
jsstr='<td>页次'
ks=htmlstr.find(ksstr)
js=htmlstr.find(jsstr)
lbylist=htmlstr[ks:js]
print(lbylist)
print(ks)
这段代码是想从 htmlstr 中截取一段,有开始和结尾代码,分别是 ksstr 和 jsstr ,这段代码测试通过。
但当我把 ksstr 和 jsstr 两个字符串的值分别存入数据库,然后直接解析网页页面,在程序里取出来时, ks 的值就是-1 了,很明显是“</table>\n<ul>\n<li>”这个地方出了问题。
我现在搞不清是\n 的问题还是编码的问题,也试过\n\r ,还是不行。网页的编码是 gb2312 。想起来了,应该不是编码的问题,因为还有其他的页面也是 gb2312 的,也通过了,就这一个带\n 的出了问题。
htmlstr=
'''
。。。
</td>
</tr>
</table>
<ul>
<li>
<a></a>
<a></a>
</li>
</ul>
。。。
<td>页次
'''
ksstr='</table>\n<ul>\n<li>'
jsstr='<td>页次'
ks=htmlstr.find(ksstr)
js=htmlstr.find(jsstr)
lbylist=htmlstr[ks:js]
print(lbylist)
print(ks)
这段代码是想从 htmlstr 中截取一段,有开始和结尾代码,分别是 ksstr 和 jsstr ,这段代码测试通过。
但当我把 ksstr 和 jsstr 两个字符串的值分别存入数据库,然后直接解析网页页面,在程序里取出来时, ks 的值就是-1 了,很明显是“</table>\n<ul>\n<li>”这个地方出了问题。
我现在搞不清是\n 的问题还是编码的问题,也试过\n\r ,还是不行。网页的编码是 gb2312 。想起来了,应该不是编码的问题,因为还有其他的页面也是 gb2312 的,也通过了,就这一个带\n 的出了问题。