SeimiCrawler(Java 爬虫框架) v1.3.0-源码库

资源介绍

授权方式：免费软件
界面语言：简体中文
文件大小：118 KB
更新时间：2016-12-09
资源类型：国产软件
推荐等级：★★★☆☆
平台环境：Win2003,WinXP,Win2000,Win9X
作者主页：点击查看
演示地址：点击查看

详细介绍 – [ SeimiCrawler(Java 爬虫框架) v1.3.0 ] SeimiCrawler(Java 爬虫框架）更新

支持在Request对象中，通过header(map)来自定义本次请求的header，以及支持通过seimiCookies来自定义cookies，自定义cookies会直接进入cookiesStore，对同域下第二次请求依然有效

优化默认启动方式，改造cn.wanghaomiao.seimi.boot.Run支持CommandLineParser，可以使用 -c 和-p来传参，其中-c用来指定crawlernames，多个用\’,\’分隔，-p指定一个端口，可以选择性的启动一个内嵌的http服务，并开启使用内嵌http接口

maven-compiler-plugin打包插件升级为1.3.0，完善Linux下的脚本，并增加启动配置文件，可以到maven-compiler-plugin主页详细查看

默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现

优化部分代码

demo日志默认全部输出至控制台

SeimiCrawler(Java 爬虫框架）简介

SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

SeimiCrawler(Java 爬虫框架)展示 SeimiCrawler(Java 爬虫框架) v1.3.0插图相关阅读

同类推荐：站长常用源码

猜你在找

织梦模板

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！

源码库 » SeimiCrawler(Java 爬虫框架) v1.3.0

分享到：