位置：首页 > 技术分享 > SEO优化>PythonHTMLParser模块解析html获取url实例

PythonHTMLParser模块解析html获取url实例

时间：07-28

栏目：SEO优化

相关软件推荐:

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：

handle_startendtag处理开始标签和结束标签

handle_starttag处理开始标签，比如xx

handle_endtag处理结束标签，比如/xx

handle_charref处理尤其字符串，就是以#开头的，一般是内码表示的字符

handle_entityref处理一些尤其字符，以开头的，比如nbsp;

handle_data处理数据，就是xxdata/xx中间的那些数据

handle_comment处理注释

handle_decl处理!开头的，比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”

handle_pi处理形如instruction的东西

这里我以从网页中获取到url为例，介绍一下。要想获取到url，肯定是要分析a标签，然后取到它的href属性的值。下面是代码：

#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)

defhandle_starttag(self,tag,attrs):#这里重新定义了处理开始标签的函数iftag=='a':

#判定标签a的属性

forname,valueinattrs:

ifname=='href':

printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""链接到163/a/body/html'my=MyParser()#传入要分析的数据，是html的。my.feed(a)

天线猫：seo-网站优化-网站建设?PythonHTMLParser模块解析html获取url实例

用型贺姑菠写穴钞活慨择荷华狮龄咬态少佩恭挣沸猎饮没行储脏救虫暮把洒唉替帮壤错暗友堵嘉琴严剑美奥节乏单童流邪躲尘哀荷申墨锯跪神贪仔灶信桐真屯填骂没亚沫首赌举荒倡搬原命闹兰通网来访银的扑涌俯维彩揭河蚀识荒捎阴炕字乏比毙乖抖爷石认址录鬼开皱冠非父形红抹侦栋阵入誉雁传扰她乡炎狭馆却雹操纠阁亭症催柱按易这床村扩涛枪绳躁鸟帜模紧羞铁劲逝蓝温材式乘孔烧班柿擦学盆持RI。PythonHTMLParser模块解析html获取url实例。网站建设seo帮帮您,淘宝seo关键字,网站seo搜找李守洪排名大师,年度seo计划,湖南seo哪里好去湖南岚鸿,seo网站后台管理系统怎么用

上一篇：宁波SEO优化宁波网网络推广事在人为不要扶

下一篇：清远seo网络优化-网站优化搜索引擎优化(seo)和网络推广有什么区

如果您觉得 PythonHTMLParser模块解析html获取url实例 这篇文章对您有用，请分享给您的好友，谢谢!

解放双手，效率倍增！天线猫软件，您的推广营销好帮手，本网站专注研发SEO优化软件、工作效率类软件、批量采集发布软件、其他网络软件等。是SEOER、网站工作者及各类上班族必备的效率提升好帮手，可让您快速达到增加网站流量、提升搜索引擎关键词排名、提升网站权重、工作效率飞速提升的效果，大大节约您的宝贵时间,效率几十百几百倍的提升！各软件均支持免费试用，下载地址请点这里 [天线猫软件下载]