关于 solr:Apache Nutch 没有正确索引 rss 提要

Apache Nutch doesn't index rss feed properly

我一直在尝试使用"feed"作为解析器(而不是 tika.
理论上,对于每个 RSS 项目,应该在 Solr 中创建一个文档。它被创造了!但只是暂时的。
事实上,一旦索引成功完成,清理作业就会删除所有 RSS 项目。

我的猜测是在 crawlDB 中找不到 RSS 项目的 url,因此它会在 cleanjob 期间从 Solr 中删除它们。会不会是对的?

编辑:
我注意到所有条目都具有相同的"签名",因为提取器如此决定。因此,重复数据删除将它们标记为重复,并且清理器会清理它们。

我正在尝试修改这种情况,但我不明白为什么它会以这种方式进行配置。


Nutch 中的提要插件从提要文件中生成多个文档,而不获取其中列出的 URL。我的猜测是,它将与提要页面相同的签名分配给所有子文档,正如您所指出的那样,这会导致它们被重复数据删除。

这不应该发生,显然是一个错误。您能否为它打开一个 JIRA 问题?

您可以从抓取脚本中删除重复数据删除步骤,以便将您的文档保留在索引中。

或者,您可以编写插件的修改版本,它只是从提要中提取外链接,并让 Nutch 像往常一样获取子文档。这样每个文档都将获得自己的签名,并且重复数据删除将是有意义的。

您更喜欢它的另一个原因是提要条目可能不包含子文档的整个文本/元数据。

有趣的是,我刚刚在 StormCrawler 中添加了一个用于解析提要的资源,与 Nutch 中的不同,它只是检测外链并稍后获取它们。