博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【crawler】heritrix 3 使用
阅读量:5917 次
发布时间:2019-06-19

本文共 608 字,大约阅读时间需要 2 分钟。

https://webarchive.jira.com/wiki/display/Heritrix/A+Quick+Guide+to+Running+Your+First+Crawl+Job

1、下载heritrix3后解压

2、命令行到bin目录  >heritrix.cmd –a admin:admin启动

可以用heritrix --help 查看帮助

3、打开浏览器 地址  127.0.0.1:8443 即可使用,用户名密码是上面打的admin, admin (以前版本好像是127.0.0.1:8080)

我在浏览器上不能访问,查看了下异常,发现时安全http什么的,就用地址

4、在主页,create 一个job

然后再job中 edit 配置configuration

在里面的

1)、metadata.operatorContactUrl=   这儿不是seed url

2)、populate the <prop> element of the longerOverrides bean with the seed values for the crawl。

这人放的是seed urls

然后 save

5、依次build、launch、unpause就开始了

转载于:https://www.cnblogs.com/549294286/archive/2012/11/30/2796367.html

你可能感兴趣的文章
Zabbix发现、自动注册和web监控
查看>>
Windows server 2003 FTP 全攻略(二)
查看>>
tomcat6.0启动报错
查看>>
Android Studio第三十七期 - webview与js交互
查看>>
用户管理脚本之删除用户——Delete_user.sh
查看>>
sql server日期时间函数
查看>>
哈哈!终于完成LFS,庆祝!庆祝!
查看>>
Excel打印图片时,图片上加的文字无法显示
查看>>
硬盘安装Fedora 8
查看>>
把 MapXtreme for Java 迁移到 Tomcat 5.5 上
查看>>
Java中log4j控制写入日志开关
查看>>
DWR+freemarker+commons.mail 实现模板定制动态邮件发送
查看>>
科普系列之-让你的本本使用WLAN
查看>>
Liferay 如何加入自定义的js库文件
查看>>
LYNC2010 标准版的安装
查看>>
PD设计中表名过长,自动生成的主外键名截取的问题
查看>>
Microsoft Dynamics CRM 2013 电子邮件路由器安装程序 介绍
查看>>
Android:数据库增删改查、SQLite、SQLiteOpenHelper、openOrCreateDatabase
查看>>
007 content for
查看>>
使用spring boot devtools不要多此一举加try...catch
查看>>