当前位置: 首页 > 知识库问答 >
问题:

JDBC批处理操作理解

宓弘壮
2023-03-14

我在我的应用程序中使用Hibernate ORM和PostgreSQL,有时我使用批处理操作。起初我不明白为什么在批处理大小=25的日志中,会生成25个查询,起初我认为它不能正常工作。但是在那之后,我查看了pg驱动程序的源代码,在Pg语句类中发现了以下几行:

 public int[] executeBatch() throws SQLException {
        this.checkClosed();
        this.closeForNextExecution();
        if (this.batchStatements != null && !this.batchStatements.isEmpty()) {
            this.transformQueriesAndParameters();
//confuses next line, because we have array of identical queries
            Query[] queries = (Query[])this.batchStatements.toArray(new Query[0]);
            ParameterList[] parameterLists = 
(ParameterList[])this.batchParameters.toArray(new ParameterList[0]); 
            this.batchStatements.clear();
            this.batchParameters.clear();

在PgPreparedStatement类中

    public void addBatch() throws SQLException {
        checkClosed();
        if (batchStatements == null) {
          batchStatements = new ArrayList<Query>();
          batchParameters = new ArrayList<ParameterList>();
        }

        batchParameters.add(preparedParameters.copy());
        Query query = preparedQuery.query;
    //confuses next line
        if (!(query instanceof BatchedQuery) || batchStatements.isEmpty()) {
          batchStatements.add(query);
        }
      }

我注意到,如果批处理的大小变为25,则会发送25个查询并附带参数。

数据库日志证实了这一点,例如:

2017-12-06 01:22:08.023 MSK [18402] postgres@buzzfactory СООБЩЕНИЕ:  выполнение S_3: BEGIN
2017-12-06 01:22:08.024 MSK [18402] postgres@buzzfactory СООБЩЕНИЕ:  выполнение S_4: select nextval ('tests_id_seq')
2017-12-06 01:22:08.041 MSK [18402] postgres@buzzfactory СООБЩЕНИЕ:  выполнение S_2: insert into tests (name, id) values ($1, $2)     
2017-12-06 01:22:08.041 MSK [18402] postgres@buzzfactory ПОДРОБНОСТИ:  параметры: $1 = 'test', $2 = '1'
2017-12-06 01:22:08.041 MSK [18402] postgres@buzzfactory СООБЩЕНИЕ:  выполнение S_2: insert into tests (name, id) values ($1, $2)
2017-12-06 01:22:08.041 MSK [18402] postgres@buzzfactory ПОДРОБНОСТИ:  параметры: $1 = 'test', $2 = '2'
...
x23 queries with parameters 
...
2017-12-06 01:22:08.063 MSK [18402] postgres@buzzfactory СООБЩЕНИЕ:  выполнение S_5: COMMIT

但我认为一个查询必须使用25个参数的数组执行。或者我不明白批插入如何与准备好的语句一起工作?为什么重复一个查询n次?

毕竟我试着调试我对这个地方的查询

if (!(query instanceof BatchedQuery) || batchStatements.isEmpty()) {

注意到我的查询总是SimpleQuery的实例,而不是BatchedQuery。也许这就是问题的解决办法?我找不到有关BatchedQuery的信息

共有2个答案

章岳
2023-03-14

批处理不会折叠或最小化已完成的SQL语句数量;这一切都是关于优化Hibernate如何在其内存会话中缓存和刷新数据库。批处理和为您的操作找到合适的批大小的重要性在于在所使用的应用程序内存和数据库性能之间找到合适的平衡。

  • 如果在提交/刷新批处理之前执行了太多查询,则app server内存将不足

更多阅读这里。

https://docs.jboss.org/hibernate/orm/3.3/reference/en/html/batch.html https://www.tutorialspoint.com/hibernate/hibernate_batch_processing.htm

吕征
2023-03-14

可能涉及各种批处理,我将介绍PostgreSQL JDBC驱动程序(pgjdbc)的一部分。

TL;DR:pgjdbc在使用批处理API的情况下使用更少的网络RoundRIP<仅当reWriteBatchedInserts=true传递给pgjdbc连接设置时,才会使用code>BatchedQuery。

你可能会发现https://www.slideshare.net/VladimirSitnikv/postgresql-and-jdbc-striving-for-high-performance相关(幻灯片44,…)

当涉及到查询执行时,网络延迟通常是所用时间的重要部分。

假设案例是插入10行。

>

execute query
sync <-- wait for the response from the DB
execute query
sync <-- wait for the response from the DB
execute query
sync <-- wait for the response from the DB
...

值得注意的时间将花在“等待数据库”上

JDBC批处理API。即准备声明#addBatch()使驱动程序能够在一次网络往返中发送多个查询执行。然而,当前的实现仍然会将大批量拆分成小批量,以避免TCP死锁。

这样做会更好:

execute query
...
execute query
execute query
execute query
sync <-- wait for the response from the DB

请注意,即使使用#addBatch,也存在“执行查询”命令的开销。单独处理每条消息确实需要花费大量的时间。

减少查询数量的方法之一是使用多值插入。例如:

insert into tab(a,b,c) values (?,?,?), (?,?,?), ..., (?,?,?)

此PostgreSQL支持一次插入多行。缺点是您没有详细的(每行)错误消息。当前Hibernate未实现多值插入。

然而,pgjdbc可以动态地将常规批处理插入重写为多值,因为9.4.1209 (2016-07-15)。

为了激活多值重写,您需要添加reWriteBatchedInserts=true连接属性。该功能最初开发于https://github.com/pgjdbc/pgjdbc/pull/491

使用2条语句插入10行已经足够聪明了。第一个是8值语句,第二个是2值语句。使用二次幂可以使pgjdbc保持不同语句的数量正常,并且由于经常使用的语句是服务器准备的,因此可以提高性能(请参见PostgreSQL服务器端准备语句的寿命)

BatchedQuery表示这种多值语句,因此您将看到仅在reWriteBatchedInserts=true大小写中使用的类。

该功能的缺点可能包括:较低的细节作为“批处理结果”。例如,常规批处理为您提供“每语句行数”,但在多值情况下,您只获得“语句完成”状态。除此之外,动态重写器可能无法解析某些SQL语句(例如。https://github.com/pgjdbc/pgjdbc/issues/1045 ).

 类似资料:
  • 问题内容: 我在应用程序中使用Hibernate ORM和PostgreSQL,有时我使用批处理操作。最初,我不明白为什么在批处理大小为25的日志中,会生成25个查询,并且最初认为它无法正常工作。但是之后,我查看了pg驱动程序的源代码,并在PgStatement类中找到了以下几行: 并在PgPreparedStatement类中 我注意到,事实证明,如果批处理的大小达到25,则会发送25个带有附加

  • 主要内容:使用Statement对象进行批处理,使用PrepareStatement对象进行批处理批量处理允许将相关的SQL语句分组到批处理中,并通过对数据库的一次调用来提交它们,一次执行完成与数据库之间的交互。 一次向数据库发送多个SQL语句时,可以减少通信开销,从而提高性能。 不需要JDBC驱动程序来支持此功能。应该使用方法来确定目标数据库是否支持批量更新处理。如果JDBC驱动程序支持此功能,该方法将返回。 ,和的方法用于将单个语句添加到批处理。 用于执行组成批量的所有语句。 返回一个整数

  • 在批处理脚本中,可以使用任何编程语言执行普通的基于文件夹的操作。 以下是一些可以在文件夹上执行的操作。 创建文件夹 列出文件夹 遍历文件夹中的文件 删除文件夹 重命名文件夹

  • 我有以下工作要处理在一定的时间间隔或特别的基础上。 作业中的步骤如下: 我也想要用户界面,在那里我可以触发一个特别的基础上的工作,而且我应该能够提供参数从用户界面。 我想用Spring batch来完成这个任务,但它更多的是用于读->处理->写之类的工作。这里,在第一步中,我正在生成由第二步读取的数据。我不确定我是否还可以使用Spring batch来实现这个,或者有更好的方法来实现这个。

  • 问题内容: 对于Java-JDBC API和Oracle数据库,我有一个稍微独特的要求。我将autoCommit设置为默认值,这对于Oracle是正确的,并且我使用的示例与此链接相似。 但是,当我添加说1000批次时,可以说每个批次都是插入的。并且让我们假设大约20条记录违反了某些约束,我希望其余980条变为COMMITTED(并且以后对使用任何其他连接的任何其他查询都可见)到数据库,并忽略20条

  • 问题内容: 我需要将几亿条记录插入mysql db。我要一次插入一百万个。请在下面查看我的代码。它似乎很慢。有什么方法可以优化它吗? 问题答案: 我在mysql中遇到类似的性能问题,并通过在连接URL中设置useServerPrepStmts和rewriteBatchedStatements属性来解决。