Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。
此版本包含 30 多个错误修复和改进,部分更新内容如下:
Bug 修复
- javax.ws packaging.type 的可靠解决方案
- 升级 lvy 以解决未设置 package.type 属性的问题
- RobotsRulesParser 命令行检查器,以使用 http.robots.agents 作为后备
- FreeGenerator 实际应用于提取列表的配置数量
- MoreIndexingFilter-无法解析错误的日期
改进
- MoreIndexingFilter 重构:将用于解析 “lastModified” 的数据格式移动到配置文件
- 设置 Tika 1.19 中用于 MIME 检测的 XML SAX 解析池大小
- 升级到 crawler-commons 1.1
- 更新到 Tika 1.25
- 把 commons-jexl 从 2 更新到 3
详细内容请查看更新公告。