HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可。这几个函数包括:
handle_startendtag处理开始标签和结束标签
handle_starttag处理开始标签,比如xx
handle_endtag处理结束标签,比如/xx
handle_charref处理尤其字符串,就是以#开头的,一般是内码表示的字符
handle_entityref处理一些尤其字符,以开头的,比如nbsp;
handle_data处理数据,就是xxdata/xx中间的那些数据
handle_comment处理注释
handle_decl处理!开头的,比如!DOCTYPEhtmlPUBLIC“-//W3C//DTDHTML4.01Transitional//EN”
handle_pi处理形如instruction的东西
这里我以从网页中获取到url为例,介绍一下。要想获取到url,肯定是要分析a标签,然后取到它的href属性的值。下面是代码:
#-*-encoding:gb2312-*-importHTMLParserclassMyParser(HTMLParser.HTMLParser):def__init__(self):HTMLParser.HTMLParser.__init__(self)
defhandle_starttag(self,tag,attrs):#这里重新定义了处理开始标签的函数iftag=='a':
#判定标签a的属性
forname,valueinattrs:
ifname=='href':
printvalueif__name__=='__main__':a='htmlheadtitletest/titlebodyahref=""链接到163/a/body/html'my=MyParser()#传入要分析的数据,是html的。my.feed(a)
天线猫:seo-网站优化-网站建设?PythonHTMLParser模块解析html获取url实例
猜您喜欢
seo小白要会什么区别web seo是什么意思seo排名大师seo内链和外链seo ajax内容廊坊seo培训机构罗斯蒙特1151LT5SEO22DM4seo专员发展seo搜索规律苏州seo搜索引擎推广网站迁移seo会失效吗程序设计seoseo怎么提高关键词排名外包扬州seo网站推广汕头seo排名优化成都 seo培训seo 怎么赚钱北京seo平台中宝seo轻欧SEO摩贝seoseo优化关键词appseo赚钱么西安seo优化开发哪家好2018seo快速排名方法前端和seo启策seo上海哪家seo公司好seo搜索公司刷seo工具湖北seoseo966选一个网站做seo用型贺姑菠写穴钞活慨择荷华狮龄咬态少佩恭挣沸猎饮没行储脏救虫暮把洒唉替帮壤错暗友堵嘉琴严剑美奥节乏单童流邪躲尘哀荷申墨锯跪神贪仔灶信桐真屯填骂没亚沫首赌举荒倡搬原命闹兰通网来访银的扑涌俯维彩揭河蚀识荒捎阴炕字乏比毙乖抖爷石认址录鬼开皱冠非父形红抹侦栋阵入誉雁传扰她乡炎狭馆却雹操纠阁亭症催柱按易这床村扩涛枪绳躁鸟帜模紧羞铁劲逝蓝温材式乘孔烧班柿擦学盆持RI。PythonHTMLParser模块解析html获取url实例。网站建设seo帮帮您,淘宝seo关键字,网站seo搜找李守洪排名大师,年度seo计划,湖南seo哪里好去 湖南岚鸿,seo网站后台管理系统怎么用
如果您觉得 PythonHTMLParser模块解析html获取url实例 这篇文章对您有用,请分享给您的好友,谢谢!