- 资源介绍
- 授权方式:开源软件
- 界面语言:简体中文
- 文件大小:143 KB
- 更新时间:2020-07-25
- 资源类型:国产软件
- 推荐等级:★★★☆☆
- 平台环境:JAVA
- 作者主页:点击查看
- 演示地址:点击查看
详细介绍 – [ wind-bell风铃虫轻量级爬虫工具 v2.2.0 ]
wind-bell风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。
【声明】 请勿将风铃虫应用到任何可能会违反法律规定和道德约束的工作中,请友善使用风铃虫,遵守蜘蛛协议,不要将风铃虫用于任何非法用途。如您选择使用风铃虫即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。
wind-bell风铃虫功能
风铃虫的原理极为简单,主要由 资源调度器、网页下载器、链接解析器、内容解析器、信息输出器 这极大部分组成。
他们的作用与功能如下所示:
资源调度器:负责风铃虫资源的调度过程,例如进行任务的储存、任务的调度和任务的管理
网页下载器:负责根据调度器调度的任务下载网页资源
链接解析器:负责解析网页下载器下载的网页内容,从网页内容中提取出所有符合要求的链接
内容解析器:负责对网页下载器下载的网页内容进行内容解析
信息输出器:输出内容解析器解析出来的数据
其中的链接解析器是由一系列的链接提取器组合而成,目前链接提取器主要是支持正则提取。
内容解析器由一系列的内容提取器组合而成,不同的内容提取器功能不同,适用于不同的解析场景,支持多个提取器的重复、循环等多种组合形式。
上述个组件均提供了自定义配置接口,使用户可以根据实际需要进行自定义配置,满足各种复杂乃至异常场景的要求。
风铃虫内置的内容提取器
原文提取器
中文提取器
常量提取器
CSS内容提取器
CSS文本提取器
邮箱提取器
数字提取器
正则提取器
字符删除提取器
字符替换提取器
字符串截取提取器
XPATH提取器
数组截取
wind-bell风铃虫截图相关阅读
同类推荐:站长常用源码
猜你喜欢
-
魅力网站内容管理系统 2010 SP3
2020-08-12 -
爱金融-财经网站导航全站源码
2020-08-15 -
封开便民药酒配方查询 1.0
2020-08-13 -
MoonlightPiano月光钢琴源码
2020-08-14 -
地方分类信息系统(PHPCMS内核) v1.0
2020-08-14 -
非零坊友情链接 v5.0
2020-08-13 -
教育培训机构网站整站源码 v1.0
2020-08-14 -
kuku265网址导航源码 v2.0
2020-08-13 -
Sylius v1.7.6
2020-08-14 -
08CMS小说系统模型 简体UTF8版
2020-08-14
-
化境ASP文件管理系统 v1.1
2020-08-13 -
IP地址精准定位系统源码 v1.0
2020-08-14 -
EKECMS网站管理系统(电脑端+手机端) v2.1.1
2020-08-14 -
人事档案管理系统源码 v5.0.0
2020-08-14 -
中华品牌策划网ASP生成HTML飞扬美化版 v5.0
2020-08-13 -
七夕节(在线)祝福与表白 v1.0
2020-08-13 -
NopCommerce商城系统 v1.60 中文版
2020-08-14 -
文件批量上传客户端免费组件 v1.0.7 for php
2020-08-14 -
Seo外链优化系统 v1.0
2020-08-13 -
黑红色织梦网络建站公司源码 v1.0
2020-08-14
猜你在找
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
源码资源库 » wind-bell风铃虫轻量级爬虫工具 v2.2.0