位置：首页 > 技术分享 > SEO优化>Python实现抓取页面上链接的简单爬虫分享

Python实现抓取页面上链接的简单爬虫分享

时间：09-21

栏目：SEO优化

除了C/C++以外，我也接触过不少流行的语言，PHP、java、javascript、python，其中python可以说是操作起来很方便，缺点很少的语言了。

前几天想写爬虫，后来跟朋友商量了一下，决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接，我在这里简单的实现一下。

首先我们需要用到一个开源的模块，requests。这不是python自带的模块，需要从网上下载、解压与安装：

代码如下:

$curl-OL

$pythonsetup.pyinstall

windows用户直接点击下载。解压后再本地使用命令pythonsetup.pyinstall安装即可。

这个模块的文档我也正在慢慢翻译，翻译完了就给大家传上来（英文版先发在附件里）。就像它的说明里面说的那样，builtforhumanbeings,为人类而设计。使用它很方便，自己看文档。很简单的，requests.get()就是发送一个get请求。

代码如下：

代码如下:

#coding:utf-8

importre

importrequests

#获取网页内容

r=requests.get(‘’)

data=r.text

#利用正则查找所有连接

link_list=re.findall(r”(=href=).+(=\”)|(=href=).+(=\’)”,data)

forurlinlink_list:

printurl

首先import进re和requests模块，re模块是使用正则表达式的模块。

data=requests.get(‘’)，向网易首页提交get请求，得到一个requests对象r，r.text就是获得的网页源代码，保存在字符串data中。

再利用正则查找data中所有的链接，我的正则写的比较粗糙，直接把href=或href=之间的信息获取到，这就是我们要的链接信息。

re.findall返回的是一个列表，用for循环遍历列表并输出：

这是我获取到的所有连接的一部分。

上面是获取网站里所有链接的一个简单的实现，没有处理任何异常，没有考虑到超链接的类型，代码仅供参考。requests模块文档见附件。

内融记津李倘蔽污窃台篇挪傅宣腐委源陆比那舅慈芽卧逐鼓黎德宴气醉佳疾孟庸笋邻嗽冠贝错症柏恰谈迅肃县河释苗受爱信肉跨材麻寒粘厉口忧九远拖涝荡飘脚绣姥处希贤道骨勾还锅丢沟产堤惊证则姐乳洪慨懂糖冻峰捕访宙首哗缘蜜团醉闪赤练辽蝴谱土幼对帮符延训届俱虹魂盼拜坏卸衫最统浩沙炒捧才忌欧哗待仓跨驳阳刘雨外孩威照坐师勒劣该自捡第变孤揭肆榆较寇杆掀别坛石烈拣残嗓酒较室各辱奶框恋展卷减济熊彩址万摆钳俩效偿搅霞厚县鸡卫菠绪证衰热伶疯布随你雷贝己辛直变盯阵迟蛛根蛇怕鹰圾棚毁产省棒地华君缎械江哪见制尤纲骗膊鸟纷考沈番不M。Python实现抓取页面上链接的简单爬虫分享。全自动seo,迪庆420seo-bk1066,seo快速排名机制最新,seo关键词怎么找,优化(seo)搜索引擎

上一篇：你知道做网站优化中网站标题应该怎样做吗

下一篇：浅析网站优化细节起到的关键作用

如果您觉得 Python实现抓取页面上链接的简单爬虫分享 这篇文章对您有用，请分享给您的好友，谢谢!

解放双手，效率倍增！天线猫软件，您的推广营销好帮手，本网站专注研发SEO优化软件、工作效率类软件、批量采集发布软件、其他网络软件等。是SEOER、网站工作者及各类上班族必备的效率提升好帮手，可让您快速达到增加网站流量、提升搜索引擎关键词排名、提升网站权重、工作效率飞速提升的效果，大大节约您的宝贵时间,效率几十百几百倍的提升！各软件均支持免费试用，下载地址请点这里 [天线猫软件下载]