关于python:对于大型数据集,neo4j的批量导入器替代

Alternative to batch importer for neo4j for large datasets

我正在尝试将大型数据集导入neo4j。我创建了一个Python脚本,以在读取.xls文件后将密码查询写入.cql文件,然后使用neo4j-shell运行它们。这适用于一个小的数据集。但是随着数据集大小的增加,我的系统崩溃了。

我几乎没有使用批处理导入器的建议,但它们通常基于Java(例如:Groovy),因此我不习惯使用这种方法。那么,除了批处理插入还是至少通过Python进行批处理插入,有没有其他选择?


您可以尝试Neo4J Load CSV工具/密码命令。
它非常灵活,可与USING PERIODIC COMMIT配合使用,通过进行定期提交来处理非常大的数据集,以防止缓冲区溢出问题并进一步优化过程。

唯一的前提条件是您能够以CSV格式导出原始数据。

http://neo4j.com/developer/guide-import-csv/

http://neo4j.com/docs/developer-manual/current/#cypher-query-lang (section 8.6)