将非常大的 RDF 文件加载到 openrdf Sesame 本体管理器中

Loading verly large RDF file into openrdf Sesame ontology manager

我需要将表示为 N-triples 文件 (1gb) 的非常大的本体加载到 openrdf Sesame 应用程序。我正在使用工作台界面来做到这一点。我知道这个文件太大而无法在一个请求中加载。为了解决这个问题,我将文件拆分为 100mb 大小的文件。但我仍然从 openrdf Sesame 服务器收到错误消息:

1
2
3
4
5
6
7
8
9
HTTP ERROR 500

Problem accessing /openrdf-workbench/repositories/business/add. Reason:

    Unbuffered entity enclosing request can not be repeated.
Caused by:

org.apache.commons.httpclient.ProtocolException: Unbuffered entity enclosing request can not be repeated.
 at org.apache.commons.httpclient.methods.EntityEnclosingMethod.writeRequestBody(EntityEnclosingMethod.java:487)

有没有人对我可以用于我的任务的 openrdf Sesame 或其他本体管理器有很好的了解?

非常感谢您的意见

K.


Sesame Workbench 确实不是这类任务的理想工具——尽管我希望它能够处理 100MB 的文件。可能是您运行 Sesame 的 Tomcat 设置了 POST 限制?你可以在 Sesame 的邮件列表上四处询问,那里知识渊博的人也很少。但这里有两个可能的想法来完成任务:

处理此问题的一种方法是使用 Sesame\\'s Repository API 以编程方式进行上传。查看 Sesame 网站上的用户文档以获取代码示例。

或者,如果您使用 Sesame 本地存储,您可以使用 Sesame\\ 的命令行控制台执行"脏"解决方法:创建本地本地三重存储并将您的数据上传到该本地存储(这应该更快,因为不需要 HTTP 通信)。然后,关闭 Sesame 服务器,将本地本地存储的数据文件复制到服务器中的存储数据文件上,然后重新启动。


我遇到了同样的问题。当我尝试上传"大"RDF(大约 40MB)时,上传过程失败并出现错误:

Unbuffered entity enclosing request can not be repeated.

我尝试了其他版本的Tomcat和sesame,但没有成功。然后我尝试使用sesame控制台和本地存储库(不是tomcat服务器上的localhost - 正如Jeen在另一个答案中所说)它向我显示另一个错误:

Malformed document: JAXP00010001: The parser has encountered more than"64000" entity expansions in this document; this is the limit imposed by the JDK. [line 1, column 1]

所以我认为关于实体限制的错误在 tomcat 的某个地方被关于 Umbuffered 实体的错误所覆盖。

然后我在我的 Storm 集群中读取 AWS SQS 队列时发现了这个主题是什么导致了这些 ParseError 异常,并在 tomcat 启动之前添加了这个语句:

1
export JAVA_OPTS="${JAVA_OPTS} -Djdk.xml.entityExpansionLimit=0"

此语句禁用 XML 解析器中的实体限制(默认为 64 000,如错误消息所述)。在这一步之后,我可以加载"大"RDF(在 40-800MB 上测试)。


我不确切知道您希望完成什么任务,但您可能想在这里查看具有非正式(主要是自称)可扩展性结果的可扩展三重存储列表。在此,sesame只报告处理 70M 语句(不是那么多......可能是你麻烦的原因。)