屏幕抓取
想要抓取网页信息,可以用urllib和正则表达式做到:
1 | from urllib import urlopen |
正则表达式的模式相对固定,下面我们介绍Tidy和XHTML解析
Tidy和XHTML解析
XHTML是HTML最新的方言,是XML的一种形式。
tidy 是什么
tidy是用来修复不规范且有些随意的HTML文档的工具。
XHTML和HTML区别
xhtml对显示关闭更加严格
It's not who you are underneath,it's what you do that defines you
想要抓取网页信息,可以用urllib和正则表达式做到:
1 | from urllib import urlopen |
正则表达式的模式相对固定,下面我们介绍Tidy和XHTML解析
XHTML是HTML最新的方言,是XML的一种形式。
tidy是用来修复不规范且有些随意的HTML文档的工具。
xhtml对显示关闭更加严格