`
pencil1218
  • 浏览: 14817 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
最近访客 更多访客>>
社区版块
存档分类
最新评论

搭建heritrix3.1【转载】

阅读更多

 

    由于本人正在准备将heritrix1.14升级到3.1 ,觉得这篇文章挺有用的,于是就cp一下,记录下来,非本人所原创,下面是原创的文章:

 

 网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了,并把过程记录下来,希望对大家有所帮助。

      Heritrix 3.1需要jdk1.6或以上版本。本人用的Eclipse是3.7 JEE版本(非必须条件)。操作步骤如下:

1、下载Heritrix 3.1

       Heritrix 3.1的下载地址是:http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/ 我把heritrix-3.1.0-dist.zip和heritrix-3.1.0-src.zip两个包都下载下来,二者都会用到。将这两个压缩包分别解压。

2、建立Eclipse项目

     1)新建项目

      理论上建立普通java项目即可,我是建立的一个web项目,否则提示“不能访问sun.security.tools.KeyTool.java”,知道原因的同志告诉我。

      2)添加库文件

      在项目中建立一个lib目录,并将heritrix-3.1.0-dist.zip解压后的lib目录下的所有jar文件(heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar随着代码的加入可以逐步删除)拷贝到项目的lib目录下。然后再项目属性--java Build path中将这些jar引用到项目中。

     3)添加代码

     将heritrix-3.1.0\engine\src\main\java(对应heritrix-engine-3.1.0.jar)添加到Eclipse的src目录,此时Heritrix 3.1就可以运行了。为了看代码方便,还是将其他部分的代码都加入到项目,分别是:heritrix-3.1.0\commons\src\main\java目录(对应heritrix-commons-3.1.0.jar)和heritrix-3.1.0\modules\src\main\java目录(对应heritrix-modules-3.1.0.jar)。这样你就可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用,直接使用源代码运行。

3、运行Heritrix 3.1

    Heritrix 3.1运行以后可以通过一个web服务器来管理他。但首先要将他运行起来。在org.archive.crawler有个带main函数的Heritrix,启动它就可以将Heritrix3.1运行起来。但要设置启动参数-a admin:admin(输入启动账号),在Eclipse的 Run configuration中设置如下图:

然后运行Heritrix.java,如果一切正常你可以通过:http://localhost:8443 访问Heritrix 3.1的管理网站。

不过这时系统里还一片空白,你需要建立一个网页抓取的任务(job).

4、建立和配置抓取任务

    登录管理控制台(用户名admin密码admin),在管理界面首页找到如下图这个位置:

输入一个名称(如myjob),然后点击“Create”按钮。

这时候根据默认模版生成了一个抓取任务,但还不能抓取任何东西,我们需要通过配置文件的修改告诉服务器,我们要抓取什么。

在管理控制台的Job Directories中选择要配置的job(下图中myjob)

进入myjob的管理界面,如下图:

点击edit按钮,开始编辑配置文件,配置需要修改的地方如下图所示,先从简单的做起:

 

配置1和3的配置内容是一样的,operatorContactUrl写成http://localhost, jobName和description随便写点东西即可。

配置2则是配置搜索种子网站的列表,我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。

点击最上面的“Save changes"保存所有的配置文件。

这三个地方配置好就可以运行这个抓取任务试试了。

这时候需要执行如下操作(回到myjob的配置界面),让任务运行起来:

1)点击“build”编译当前的配置。

2)点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮;

3)这时任务处于挂起状态,点击“unpause”即立即启动任务。

如果系统正常运行,会有如下类似提示信息:

在项目的jobs\myjob\20120623061610\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页。

 

如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下。

从现在开始慢慢研究Heritrix吧。

 

今天按照上面转载的文档搭建了一下heritirx3.1的环境,基本上还是成功的,可以成功的运行,但是在运行的时候报了一个错误,错误如下:

 

严重: TLD list unavailable

java.lang.NullPointerException

at java.io.Reader.<init>(Reader.java:61)

at java.io.InputStreamReader.<init>(InputStreamReader.java:55)

at org.archive.util.ArchiveUtils.<clinit>(ArchiveUtils.java:874)

at org.archive.crawler.Heritrix.instanceMain(Heritrix.java:380)

at org.archive.crawler.Heritrix.main(Heritrix.java:189)

Heritrix version: UNKNOWN

无法显示版本号,这个问题暂时还没有找到是什么引起的,运行界面是可以正常运行的!

 

由于本人还算是个相对的完美主义者,对于上面的错误,心里还是觉得很难受的!!别扭!

于是刚才花了几分钟看了下源代码,是heritrix在启动的时候会到org.archive.util下面读取3个配置文件,分别是:

version.txt

timestamp.txt

tlds-alpha-by-domain.txt

 

这三个文件在src的zip包里面并不存在,但是可以在dist.zip的lib目录下,找到heritrix-commons-3.1.0.jar这个文件,

在里面的org.archive.util下面找到上面的3个txt文件,拷贝到你的项目的src\org\archive\util下面,在重新运行,问题完美解决!!

 

分享到:
评论

相关推荐

    heritrix3.1 官方指导手册

    heritrix3.0/3.1官方手册 原版为英文 在此基础做了部分翻译

    heritrix 3.1

    heritrix3.1的默认配置,类之间的关系。

    heritrix3.1

    heritrix3.1.0网络爬虫源码包,包含src和dist

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    Heritrix搭建好的工程

    Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·

    eclipse下配置heritrix 1.14.4

    很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手

    Heritrix3手册翻译

     Heritrix 3.0 and 3.1 User Guide  Heritrix 3.x API Guide 3.X发布包括一个新的基于Spring-container的设置系统和仅针对web service的浏览器和远程控制界面。 3.X移到新的模型,在单一作业目录下的单一作业...

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

    heritrix1.14.0jar包

    爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    Heritrix安装详细过程

    按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页

    Heritrix—开发自己的搜索引擎

    开发自己的搜索引擎,Heritrix是一种网页抓取的有效工具

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    Heritrix使用详解与高级开发应用

    Heritrix使用详解与高级开发应用 Heritrix开发应用详细

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    Heritrix部署直接能运行的项目

    Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...

    heritrix-1.14.2.zip

    heritrix-1.14.2.zip是一个开源项目

    heritrix源码

    heritrix学习源码和资料

Global site tag (gtag.js) - Google Analytics