- 资源介绍
- 授权方式:免费软件
- 界面语言:简体中文
- 文件大小:7.19 MB
- 更新时间:2018-08-14
- 资源类型:国产软件
- 推荐等级:★★★☆☆
- 平台环境:Win2003,WinXP,Win2000,Win9X
- 作者主页:点击查看
- 演示地址:点击查看
详细介绍 – [ Apache Nutch v1.15 ]
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。
大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
Apache Nutch截图相关阅读
同类推荐:站长常用源码
猜你喜欢
-
ASPCMS 开源投票系统
2020-08-13 -
通用功能模块 微论坛v2.7.6 开源版_源码下载
2020-08-04 -
phpscup 轻量级企业建站系统 v1.8.2 UTF8 正式版
2020-08-14 -
VeryIDE Apps 应用程序集 v1.5.6 UTF8
2020-08-14 -
淘掌门仿淘折整站源码 v3.12
2020-08-14 -
一个不错的分类信息门户
2020-08-13 -
在线影院小偷程联盟伪静态后台版 v4.2
2020-08-13 -
同学录管理系统 v1.0
2020-08-13 -
圣马客企业建站CMS系统 v5.6
2020-08-13 -
magento开源电子商务平台 v1.8.0.0 中文版
2020-08-14
-
青辰图文下单系统 v3.2 (2014)
2020-08-13 -
淘客鼠淘宝客站群管理系统 v2.0
2020-08-14 -
77ab中文网(网址站)整站程序
2020-08-13 -
MTCEO文库系统 v2.6
2020-08-14 -
MayiCMS蚂蚁分类信息系统多城市版 v5.9SE
2020-08-14 -
高仿521360绿色精美网址导航 v2.5
2020-08-14 -
婚纱礼服公司网站 v1.0
2020-08-14 -
魔众轻量论坛系统 v2.0.0
2020-08-14 -
必帮网美女图片网站PHP小偷程序 v1.0
2020-08-14 -
2011兔年(农历新年)祝福网页源码
2020-08-15
猜你在找
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
源码库 » Apache Nutch v1.15