在Neo4J中插入大量节点

柯波峻

2023-03-14

问题内容：

我有一个存储在典型MySQL数据库中的表，并且已经使用java构建了一个小型解析器工具，以解析并构建neo4j数据库。该数据库将具有约4000万个节点，每个节点具有一个或多个边缘（最多可能有10个边缘）。问题来自我必须创建某些节点的方式。有一个用户节点，评论节点和标签节点。用户节点和主题标签节点必须各自唯一。我正在使用以下示例中的代码来确保唯一性：

public Node getOrCreateUserWithUniqueFactory( String username, GraphDatabaseService graphDb )
{
    UniqueFactory<Node> factory = new UniqueFactory.UniqueNodeFactory( graphDb, "users" )
    {
    @Override
    protected void initialize( Node created, Map<String, Object> properties )
    {
        created.setProperty( "name", properties.get( "name" ) );
    }
};

return factory.getOrCreate( "name", username );

}

我已经考虑过使用批处理插入器，但是我还没有看到一种在执行批处理插入时检查节点是否唯一的方法。所以我的问题是，在仍然确保它们保持唯一性的同时，插入所有这些节点的最快方法是什么。一如既往，我们将不胜感激。

问题答案：

万一这里有人遇到这个问题，我想记录一下自己和同事能够解决的问题，以提高速度。首先要注意一两个关于数据的注释：

有大量用户，他们大约占节点的30％
由于人们倾向于对几乎所有内容进行哈希处理，因此还有大量的标签
这两个必须保证唯一

现在，这已不至于进行优化。首先，最重要的是，您需要确保每次插入节点时插入循环完成。没有真正的例子可供我们看，因此最初的代码看起来像这样（伪代码）

Transaction begin
While(record.next()){
   parse record
   create unique user
   create unique hashtag
   create comment
   insert into graph
}
Transaction success
Transaction finish

虽然这行之有效，并且对于小型数据集而言相对较快完成，但扩展性不好。因此，我们研究了每个函数的用途，并将代码重构为如下所示：

While(record.next()){
   Transaction begin

   parse record
   create unique user
   create unique hashtag
   create comment
   insert into graph

   Transaction success
   Transaction finish
}

这大大加快了速度，但对我的同事来说还远远不够。因此，他发现可以在节点属性上创建Lucene索引，并且我们可以在唯一节点工厂中引用这些索引。这给了我们另一个明显的提速。如此之多，以至于我们可以在10秒钟之内插入1,000,000个节点，而无需使用批处理加载器。感谢大家的帮助。

在Neo4J中插入大量节点

相关阅读

相关文章

相关问答

相关工具

相关文档