Apache Nutch下载|Apache Nutch(Java搜索引擎框架) v1.9官方版下载

: 分类：软件; 最后更新: 2022年9月13日

Apache Nutch是一个开放源代码的Java搜索引擎框架，它分享了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。除了基本的功能之外，Nutch也还有不少自己的特色组件，例如：Map-Reduce、Hadoop、Plugin等，它们支持将起始URL集合注入到Nutch系统之中，支持生成片段文件，其中包含了将要抓取的URL地址。不仅如此，它还能解析所抓取到的网页，并分析其中的文本和数据，功能非常强大且实用，有需要的朋友可以来知识兔下载使用哦~
Apache Nutch

软件特色

1、Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎
2、每个月取几十亿网页
3、为这些网页维护一个索引
4、对索引文件进行每秒上千次的搜索
5、分享高质量的搜索结果

软件功能

1、支持将起始URL集合注入到Nutch系统之中
2、支持生成片段文件，其中包含了将要抓取的URL地址
3、根据URL地址在互联网上抓取相应的内容
4、解析所抓取到的网页，并分析其中的文本和数据
5、根据新抓取的网页中的URL集合来更新起始URL集合，并再次进行抓取
6、同时，对抓取到的网页内容建立索引，生成索引文件存放在系统之中

Apache Nutch使用教程

1、首先先运行软件，选择File -> Import Project ->选择apache-nutch-1.9文件夹，确定后选择Import project from external model(Eclipse)

2、一直点击next到结束，成功将项目导入project中去

3、源码导入工程后，并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段，每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数，来完整爬取的流程。下面知识兔来运行Nutch中最简单的流程：Inject。知识兔知道爬虫在初始阶段，是需要人工给出一个或多个url，作为起始点（广度遍历树的树根）。Inject的作用，就是把用户写在文件里的种子(一行一个url，是TextInputFormat)，插入到爬虫的URL管理文件(crawldb，是SequenceFile)中。