亲宝软件园为您提供爬山虎采集器的高速下载服务,当前页面下载的版本为2.5.0.0免费版,如需查看所有版本,可点击这里查看: 上网辅助 爬山虎采集器
爬山虎采集器V2是一款支持99%的网站数据采集的高效网页信息采集软件,爬山虎采集器能生成Excel表格,api数据库文件等内容,协助你管理网站数据信息,假如您需求对某个指定网页数据停止采集,运用这款软件即可。
一键提取数据
简单易学,经过可视化界面,鼠标点击即可抓取数据
快速高效
内置一套高速阅读器内核,加上HTTP引擎形式,完成快速采集数据
适用各种网站
可以采集互联网99%的网站,包括单页应用Ajax加载等等动态类型网站
导游形式
简单易用,轻松经过鼠标点击自动生成
脚本定时运转
可依照方案定时运转,无需人工
首创高速内核
自研的阅读器内核,速度飞快,远超对手
智能辨认
关于网页中的列表、表单构造(多选框下拉列表等)可以智能辨认
广告屏蔽
定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
多种数据导出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等
第一步:输入采集网址
翻开软件,新建任务,输入需求采集的网站地址。
第二步:智能剖析,全程自动化提取数据
进入到第二步后,爬山虎采集器全自动智能剖析网页,并且从中提取出列表数据。
第三步:导出数据到表格、数据库、网站等
运转任务,将采集到的数据导出为Csv、Excel以及各种数据库,支持api导出。
问:如何过滤列表中的前N个数据?
1.有时我们需求对采集到的列表停止过滤,比方过滤掉第一组数据(在采集表格时,过滤掉表格列名)
2.点击列表形式菜单中的,设置列表xpath
问:如何抓包获取Cookie,并且手动设置?
1.首先,运用谷歌阅读器翻开要采集的网站,并且登陆。
2.然后按下 F12,会呈现开发者工具,选择 Network
3.然后按下F5,刷新下页面, 选择其中一个恳求。
4.复制完成后,在爬山虎采集器中,编辑任务,进入第三步,指定HTTP Header。
2.5.0.0
2020/4/18
优化测试网址的逻辑
完善csv的写入转义
增加补全图片相对地址功用
修复cookie value逗号问题
修复http恳求br编码问题
增加ctrl+拖动 复制字段功用
修复探测文件名时的问题
修复文件名超长问题