皮皮软件

一键采集百万域名数据 如来多线程软件工具的使用感受

一键采集百万域名数据 如来多线程软件工具的使用感受

客服QQ:929058152

站长软件客服微信

客服微信


蜘蛛爬虫式采集工具


本软件工作原理是从一个初始网址中,查找外部网站,比如初始页面中有30个外部网站,那就继续爬取这30个外本网站,


可以正常访问的就收录进数据库,并且在这30个网站中再次查找外部网站如果每个站有30个外部网站,那就是30*30=900个


然后再访问这900个网站剔除无法访问的,找到正常访问的剔除重复加入数据库,然后再查找他们页面中的外部网站,如需往复


形成裂变式蜘蛛网!

软件界面:

一键采集百万域名数据 如来多线程软件工具的使用感受皮皮软件

软件的设置说明:


[ 30 ] 分钟自动保存  : 为了避免挂机采集的时候由于意外停电或者其他原因造成电脑关键,导致无法保存采集结果,这里设置多少分钟自动保存一次,中途停机也不怕

[ 100 ] 万个自动停止 : 设置后在软件自动采集到相应的数量的时候,会自动停止采集

[ 50 ] 线程 : 线程=采集速度,当然不是越大越好,看你自己的网速,假如你用的是100M的宽带,那我推荐100线程


保存进度 : 保存当前采集的进度,就可以放心关闭软件了,下次打开可以接着采集

读取进度 :假如我们这次采集想继续上次的进程接着采集,那么先读取进度,然后点开始采集就可以了


[ √ ] 采集二级域名 : 如果打钩就会采集到二级域名,并且限制二级域名的前缀问文本框里指定 前缀,如果不想限制的话,就把后边的不限前缀打上勾


采集关键词:软件会从搜索引擎搜索输入的关键词,采集一批域名当做种子网址,然后再去采集更多的网址

动态监控网址:这里是页面实时变化的网址,每隔几秒钟抓取一次,通常用于抓取站长工具里的查询记录里边的网址,大家可以自己添加, 也可以不用管它




当然这里边需要处理很多事情,比如爬行记录的去重、多线程之间的干扰、等等问题





导出域名参照如下界面: 中文网站  / 外文网站 / 报错网站 / 想要的就打钩,不想要的不打钩,然后点 导出网址 按钮就行了

后边的限制后缀是假如我就要 .net的网址 ,那你就输入.net 点启用即可

一键采集百万域名数据 如来多线程软件工具的使用感受皮皮软件



历时多年开发的迭代更新,多个版本之后最终的完善版本。更好的利用了现代多核CPU的性能


历史版本性能:

第一版跑出10分钟1W+的网址数,已经非常强悍了

2.5版10分钟跑出2.8万个,注意这都是去重复后的网址哦,而且都是顶级域名

3.0版10分钟采集13万+个网站

3.2版  采集21万用时9分钟

每一次升级都是质的飞越,购买过的朋友快来下载最新版吧!

您看到的时候软件还一直在更新

 

具体的性能看你自己的电脑配置了,各位可以根据自己电脑配置适当调整线程数


这个5年前就买的最低配的货,也该淘汰了工欲善其事必先利其器 这个道理是对的


皮皮软件专注软件开发技术

Copyright © 皮皮软件

平台客服 929058152 08:00 - 22:00