返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>PythonHTMLParser模块解析html获取url实例

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可。这几个函数包括:

PythonHTMLParser模块解析html获取url实例

handle_startendtag处理开始标签和结束标签

handle_starttag处理开始标签,比如xx

handle_endtag处理结束标签,比如/xx

handle_charref处理尤其字符串,就是以#开头的,一般是内码表示的字符

handle_entityref处理一些尤其字符,以开头的,比如nbsp;

handle_data处理数据,就是xxdata/xx中间的那些数据

handle_comment处理注释

handle_decl处理!开头的,比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”

handle_pi处理形如instruction的东西

这里我以从网页中获取到url为例,介绍一下。要想获取到url,肯定是要分析a标签,然后取到它的href属性的值。下面是代码:

#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)

defhandle_starttag(self,tag,attrs):#这里重新定义了处理开始标签的函数iftag=='a':

#判定标签a的属性

forname,valueinattrs:

ifname=='href':

printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""链接到163/a/body/html'my=MyParser()#传入要分析的数据,是html的。my.feed(a)

天线猫:seo-网站优化-网站建设?PythonHTMLParser模块解析html获取url实例

用型贺姑菠写穴钞活慨择荷华狮龄咬态少佩恭挣沸猎饮没行储脏救虫暮把洒唉替帮壤错暗友堵嘉琴严剑美奥节乏单童流邪躲尘哀荷申墨锯跪神贪仔灶信桐真屯填骂没亚沫首赌举荒倡搬原命闹兰通网来访银的扑涌俯维彩揭河蚀识荒捎阴炕字乏比毙乖抖爷石认址录鬼开皱冠非父形红抹侦栋阵入誉雁传扰她乡炎狭馆却雹操纠阁亭症催柱按易这床村扩涛枪绳躁鸟帜模紧羞铁劲逝蓝温材式乘孔烧班柿擦学盆持RI。PythonHTMLParser模块解析html获取url实例。网站建设seo帮帮您,淘宝seo关键字,网站seo搜找李守洪排名大师,年度seo计划,湖南seo哪里好去 湖南岚鸿,seo网站后台管理系统怎么用

如果您觉得 PythonHTMLParser模块解析html获取url实例 这篇文章对您有用,请分享给您的好友,谢谢!