关键词网址采集器
软件介绍
输入关键字采集各搜索引擎的网址、域名、标题、描述等信息
支持百度、搜狗、谷歌、必应、雅虎、360等。每个关键词600到800条,采集例子
关键词可以附带搜索引擎参数,就跟网页里输入关键词搜索一样,
如百度里搜索结果网址中必须包含bbs的关键词,则输入“关键词 inurl:bbs.”
保存模板可引用的数据:
#网址#采集的原始网址
#标题#网址对应的网页标题
#域名#原始网址的域名部分,如“http://test.shuimiao.net/123.htm”中的“test.shuimiao.net”
#顶级域名#取原始网址的顶级域名部分,如“http://test.shuimiao.net/123.htm”中的“shuimiao.net”
#描述#网页标题下面的一段描述文字
Excel导出:
csv是一种文本表格,能被Excel兼容显示为多列多行的数据。只要在保存模板中设置为:
"#网址#","#标题#","#描述#"
这种格式就是csv格式,使用引号围住每个项目,多个项目使用逗号隔开,然后保存扩展名填为csv即可
问题集锦:
1.为什么采集一段时间之后,无法采集?
这可能采集多了被搜索引擎限制。一般换个IP(如使用VPN换IP)即可继续采集,如果不换,只能等待搜索引擎取消屏蔽之后才能继续采集。百度的屏蔽时间通常半小时到数小时。
不过,现在即使出现验证码屏蔽,软件也会弹出验证码手动输入的(百度、谷歌)
2.不同批次关键词采集的结果为什么会存在部分网址重复?
尤其是只引用了 #域名# 或 #顶级域名# 之后,这种部分网址重复的情况比较多。这也是正常的,因为每个网站的内页可能包含很多主题,不同关键词都可能采集到该网站的不同内页,当引用域名后,相同网站的不同内页的域名结果自然就相同了。
另外,软件里的自动去重,是针对本次采集的结果内部进行去重,以前采集的结果是不在本次去重范围的。如果两次采集的结果存在部分网址重复,可以把他们合并一起,使用软件去重(天线猫·文本去重打乱器)。
3.为什么采集回来的网址的主题与关键词不符?
是因为引用了 #域名# 或 #顶级域名# 后,取的是域名部分,域名打开的是该网站的首页,而采集的原网址可能不是首页,而是该网站的某一篇文章的内页,该内页包含关键词主题,因此被搜索引擎收录,软件才能采集得到。但取域名后,你打开的域名首页就不一定包含该关键词。
为了比对采集是否正确,可以在保存模板里输入:<a href="#网址#" target="_blank">#标题#</a>
,保存为htm文件,采集完后可以自己打开该文件查看比对。
1.7.0.0:增加必应和雅虎采集;多项改动
1.7.1.0:将必应、雅虎、谷歌改为https请求以避免一些情况下的采集失败问题。
1.7.2.0:增加百度新闻采集。
1.7.2.1:一些更新。
1.7.3.0:增加关键词分割线选项。
1.7.4.0:修复百度最新变动无法采集的问题。
1.7.5.0:修复必应改动采集失效问题;修复某些电脑不能使用xmlhttps的问题(涉及谷歌、必应、雅虎)。
1.7.5.1:改进注册机制,使用硬盘+网卡全识别模式(同时兼容旧版注册码),可解决部分情况重装、换VPN所导致的机器码变的问题;其他更新。
1.7.6.0:增加每页采集数设置;引入新算法可以让搜狗极速搜索永不被封(当然如果搜狗修改了算法可能会不行,届时再说)。
1.8.0.0:增加#描述#项采集;增加搜狗延时时间避免搜狗最新规则限制。
1.8.1.0:修复雅虎采集失效问题
1.8.1.1:将每页采集数的默认值设置为50,以应对百度变动问题;增加采集失败的代码显示。
1.8.1.2:尝试修复部分电脑取硬盘码失败的问题。
1.8.2.0:修复雅虎采集失效问题
1.8.3.0:修复百度新闻改动采集失败的问题。
1.8.5.0:修复360在部分电脑返回不同网址格式导致采集失败的问题。
1.8.6.0:修复谷歌变动采集失败问题,并增加判断谷歌验证码弹出由用户手动解除再继续采集的功能。
1.8.8.0:新增必应和谷歌的英文站搜索选项。
1.9.0.0:修复雅虎改动采集失败问题;增加谷歌必应雅虎无等待高速采集选项;调整界面。
1.9.1.0:修改谷歌判断验证码的方式以更准确捕获验证码出现。
1.9.2.0:修复site百度时部分描述不能正确采集的问题。
1.9.3.0:修复描述的空格被清除的问题。
1.9.3.1:修复部分电脑上无法解析百度最新的https链接问题
1.9.5.0:修复因谷歌改动导致部分电脑取法采集谷歌的问题。
1.9.6.0:新增百度验证码弹出输入
1.9.7.0:新增谷歌地址前缀指定,可自行设置能使用的谷歌域名。
1.9.7.1:更新谷歌地址前缀文件;修复部分系统异常导致百度采集错误的问题。
1.9.7.3:修复必应采集失败问题。
1.9.8.0:修复谷歌因改动导致采集不全的问题。
1.9.8.1:增加谷歌英文验证码提示识别。
1.9.9.0:增加搜狗新闻引擎;尝试修复百度部分电脑采集不了的问题;增加取顶级域名时不包括www选项;其他更新
1.9.11.0:增加搜狗验证码识别弹出
1.9.12.0:将百度http修改为https
1.9.13.0:修复百度改动导致百度链接转换失败问题
1.9.16.1:修复百度采集可能存在的一些问题
1.9.20.0:再修复百度采集在部分电脑上可能存在的一些问题
1.9.21.0:升级搜狗验证码新改动的识别弹出。
1.9.22.0:升级对360跳转网址的识别转换。
1.9.23.0:升级对百度知道跳转网址的二次识别转换。
1.9.25.0:如果没有引用#网址#、#域名#时免去转换百度网址的过程以节省时间。
1.9.26.0:增加#关键词#引用。
1.10.0.0:增加#网页关键词#引用。
1.11.0.0:修复谷歌无法采集的问题(仍需翻墙);取消谷歌地址前缀,只能使用VPN翻墙的方式才能采集谷歌。
1.11.1.0:修复百度只采集标题且忽略自家网站时无法采集的问题。
-
天线猫关键词网址采集器产品功能涵盖关键词搜索引擎标题采集软件等.凭借专业的技术和售后队伍,天线猫秉承“诚信、专业、创新、合作”的企业精神.天线猫描述采集愿与各位合作伙伴一起携手并进,共创辉煌!
-
天线猫全自动文章采集软件产品功能涵盖万能文章采集,文章采集程序插件等.凭借专业的技术和售后队伍,天线猫一键文章采集秉承“诚信、专业、创新、合作”的企业精神.天线猫文章采集助手愿与各位合作伙伴一起携手并进,共创辉煌!
-
-
天线猫电商评论采集器产品功能涵盖淘宝评论采集软件,天猫评论采集,苏宁评论采集等.凭借专业的技术和售后队伍,天线猫京东评论采集工具不断推出新的适合潮流发展的采集器,提升服务水平,全年365天不间断快速响应服务
-
天线猫淘宝数据包采集软件产品功能涵盖一键采集淘宝信息,淘宝关键字采集等.凭借专业的技术和售后队伍,天线猫不断推出新的适合潮流发展淘宝商品采集助手,提升服务水平,全年365天不间断快速响应服务