Alternative to batch importer for neo4j for large datasets
我正在尝试将大型数据集导入neo4j。我创建了一个Python脚本,以在读取.xls文件后将密码查询写入.cql文件,然后使用neo4j-shell运行它们。这适用于一个小的数据集。但是随着数据集大小的增加,我的系统崩溃了。
我几乎没有使用批处理导入器的建议,但它们通常基于Java(例如:Groovy),因此我不习惯使用这种方法。那么,除了批处理插入还是至少通过Python进行批处理插入,有没有其他选择?
您可以尝试Neo4J Load CSV工具/密码命令。
它非常灵活,可与USING PERIODIC COMMIT配合使用,通过进行定期提交来处理非常大的数据集,以防止缓冲区溢出问题并进一步优化过程。
唯一的前提条件是您能够以CSV格式导出原始数据。
http://neo4j.com/developer/guide-import-csv/
http://neo4j.com/docs/developer-manual/current/#cypher-query-lang (section 8.6)