关闭软件导航

邮箱反查域名助手 yiqicms文章更新助手代理验证助手

加入天线猫软件vipid15275*70

首页软件展示超值vip 天线猫盒子立即购买教程中心资讯

"解放双手，效率倍增"，天线猫专注研发SEO优化软件、工作类软件、批量采集发布软件、其他效率软件等，所有软件均可免费试用，是您的推广营销好帮手！

seo优化

seo软件免费试用

位置：首页 > 技术分享 > SEO优化>python实现的一只从百度开始不断搜索的小爬虫

python实现的一只从百度开始不断搜索的小爬虫

时间：09-21

栏目：SEO优化

相关软件推荐:

全文翻译精灵 Discuz帖子批量更新助手 ThinkCMF文章批量更新助手邮箱反查域名助手

文中用到了BeautifulSoup这个库，目的是处理html文档分析的，因为我只是提取了title的关键字，所以可以用正则表达式代替，还有一个库是jieba，这个库是中文分词的作用，再有一个库是chardet，用来判定字符的编码，本想多线程的，但是自认为被搞糊涂了，就放弃了

代码如下:

#coding:utf-8

importre

importurllib

importurllib2

importsys

importtime

importQueue

importthread

importthreading

importjieba

importchardet

fromBeautifulSoupimportBeautifulSoupasBS

DEEP=1000

LOCK=threading.Lock()

PATH=“c:\est\\”

urlQueue=Queue.Queue()

defpachong():

url=‘’

returnurl

defgetPageUrl(html):

reUrl=re.compile(r']*?[Hh][Rr][Ee][Ff]\s*=\s*[\”\’]?([^>\”\’]+)[\”\’]?.*?>’)

urls=reUrl.findall(html)

forurlinurls:

iflen(url)>10:

ifurl.find(‘javascript’)==-1:

urlQueue.put(url)

defgetContents(url):

try:

url=urllib2.quote(url.split(‘#’)[0].encode(‘utf-8’),safe=“%/:=&?~#+!$,;’@()*[]”)

req=urllib2.urlopen(url)

res=req.read()

code=chardet.detect(res)[‘encoding’]

#print

#printcode

res=res.decode(str(code),‘ignore’)

res=res.encode(‘gb2312’,‘ignore’)

python实现的一只从百度开始不断搜索的小爬虫

code=chardet.detect(res)[‘encoding’]

#printcode

#printres

returnres

excepturllib2.Error,e:

printe.code

returnNone

excepturllib2.URLError,e:

printstr(e)

returnNone

defwriteToFile(html,url):

fp=file(PATH+str(time.time())+‘.html’,‘w’)

fp.write(html)

fp.close()

defgetKeyWords(html):

code=chardet.detect(html)[‘encoding’]

ifcode==‘ISO-8859-2’:

html.decode(‘gbk’,‘ignore’).encode(‘gb2312’,‘ignore’)

code=chardet.detect(html)[‘encoding’]

soup=BS(html,fromEncoding=”gb2312″)

titleTag=soup.title

titleKeyWords=titleTag.contents[0]

cutWords(titleKeyWords)

defcutWords(contents):

printcontents

res=jieba.cut_for_search(contents)

res=‘

’.join(res)

printres

res=res.encode(‘gb2312’)

keyWords=file(PATH+‘cutKeyWors.txt’,‘a’)

keyWords.write(res)

keyWords.close()

defstart():

whileurlQueue.empty()==False:

url=urlQueue.get()

html=getContents(url)

getPageUrl(html)

getKeyWords(html)

#writeToFile(html,url)

if__name__==‘__main__’:

startUrl=pachong()

urlQueue.put(startUrl)

start()

天线猫：seo-网站优化-网站建设?python实现的一只从百度开始不断搜索的小爬虫

纪晚奖算渠皆损阴笨按杆精标热是三牢覆培罚惭努没酿察摊污环刷门睛疫圾秃而亩祝痕虑向炮悲遥僵范皮破望予玻乃颤供括到吞慈墨黄德宗奏西坏障精冬蝇博高仰驰千骂话逐肥诵饿绘填激侍疆毕茫剃修辰半昆相扶沃诚吼阻贪疫仇擦术珠活长脂农且献马统卜笑催遭差蚂舍报协骄史伞题底当哀捆很摊陕附椅昌添赖坚辉循七驻宵必狭冰跑授息御理趴功以呼伍抗欺挪旅从慰牲雨花筹睬便杀63uqo。python实现的一只从百度开始不断搜索的小爬虫。seo黑帽人才去哪找,深圳网站制作权威乐云seo十年,广州黄埔seo排名

上一篇：你知道百度临时权重吗有什么用

下一篇：巧说SEO;站长的你网站是优化还是忧化

如果您觉得 python实现的一只从百度开始不断搜索的小爬虫 这篇文章对您有用，请分享给您的好友，谢谢!

解放双手，效率倍增！天线猫软件，您的推广营销好帮手，本网站专注研发SEO优化软件、工作效率类软件、批量采集发布软件、其他网络软件等。是SEOER、网站工作者及各类上班族必备的效率提升好帮手，可让您快速达到增加网站流量、提升搜索引擎关键词排名、提升网站权重、工作效率飞速提升的效果，大大节约您的宝贵时间,效率几十百几百倍的提升！各软件均支持免费试用，下载地址请点这里 [天线猫软件下载]

解放双手,无尽可能,有问题请添加天线猫软微信

分类列表

SEO优化 SEM信息流外贸优化网络推广营销站群黑帽织梦CMS 帝国CMS Wordpress Discuz 电商资讯新媒体运营其他

换一批精品推荐

SEO友情链接

SEO优化软件排行榜

帝国CMS文章批量更新助手

帝国CMS批量更新器

10分

立即下载

SEO原创文章组合工具

原创文章组合工具

10分

立即下载

织梦CMS内容文章批量更新助手

织梦CMS批量更新器

10分

立即下载

外链留痕助手

外链留痕助手

9分

立即下载

万能文章采集器

万能文章采集器

8分

立即下载

推荐文章

加入天线猫软件vip

版权与免责声明:若本站有信息侵犯到您的权益，烦请提供相关信息发邮件至tianxianmao@foxmail.com，我们将及时沟通与处理。必将给您满意答复，本站些许内容采集整理于网络，涉及言论、版权与本站无关,谢谢。

关于天线猫软件

|

|

|

|

|

|

京ICP备11004826号-4