当前位置: 首页 > 面试题库 >

Django多处理和数据库连接

冷英光
2023-03-14
问题内容

背景:

我正在一个将Django与Postgres数据库一起使用的项目。在某些情况下,我们也会使用mod_wsgi,因为我的一些网络搜索都提到了它。在Web表单提交中,Django视图启动了一个需要大量时间的工作(比用户希望等待的时间还长),因此我们通过后台的系统调用来启动该工作。现在正在运行的作业需要能够读取和写入数据库。因为这项工作需要很长时间,所以我们使用多重处理来并行运行它的各个部分。

问题:

顶级脚本具有数据库连接,当它产生子进程时,似乎父级的连接对子级可用。然后有一个例外,关于在查询之前必须如何调用SET TRANSACTION ISOLATION LEVEL。研究表明,这是由于尝试在多个进程中使用相同的数据库连接。我发现一个线程建议在子进程开始时调用connection.close(),以便Django在需要时自动创建一个新连接,因此每个子进程将具有唯一的连接-即不共享。这对我不起作用,因为在子进程中调用connection.close()导致父进程抱怨连接丢失。

其他发现:

我读过的东西似乎表明你不能真正做到这一点,并且多处理,mod_wsgi和Django不能很好地配合使用。我猜这似乎很难相信。

有些人建议使用celery,这可能是一个长期解决方案,但是我目前无法安装celery,需要等待一些批准程序,因此现在无法选择。

在SO和其他地方找到了一些有关持久数据库连接的参考,我认为这是一个不同的问题。

还发现了对psycopg2.pool和pgpool的引用以及有关bouncer的内容。诚然,我不了解我所读的大部分内容,但是它确实并没有像我想要的那样让我惊讶。

当前的“工作环境”:

现在,我已经恢复为仅串行运行,并且可以运行,但速度比我想要的慢。

关于如何使用多处理并行运行的任何建议?好像我可以让父母和两个孩子都具有与数据库的独立连接一样,一切都会好起来的,但是我似乎无法获得这种行为。

谢谢


问题答案:

多重处理会在进程之间复制连接对象,因为它会分叉多个进程,因此会复制父进程的所有文件描述符。就是说,与SQL Server的连接只是一个文件,你可以在Linux的/ proc // fd / …下看到它。任何打开的文件将在分支的进程之间共享。

我的解决方案只是在启动进程之前关闭数据库连接,每个进程在需要连接时都会重新创建连接(在django 1.4中进行了测试):

from django import db
db.connections.close_all()
def db_worker():      
    some_paralell_code()
Process(target = db_worker,args = ())

Pgbouncer / pgpool在多处理的意义上没有与线程连接。这是不关闭每个请求连接的解决方案=在高负载下加快连接到postgres的速度。

更新:

要完全消除数据库连接问题,只需将与数据库连接的所有逻辑移至db_worker-我想将QueryDict作为参数传递…更好的主意是简单地传递ID列表…请参阅QueryDict和values_list(’id’,flat =是的),并且不要忘记将其列出!传递给db_worker之前列出(QueryDict)。因此,我们不会复制模型数据库连接。

def db_worker(models_ids):        
    obj = PartModelWorkerClass(model_ids) # here You do Model.objects.filter(id__in = model_ids)
    obj.run()


model_ids = Model.objects.all().values_list('id', flat=True)
model_ids = list(model_ids) # cast to list
process_count = 5
delta = (len(model_ids) / process_count) + 1

# do all the db stuff here ...

# here you can close db connection
from django import db
db.connections.close_all()

for it in range(0:process_count):
    Process(target = db_worker,args = (model_ids[it*delta:(it+1)*delta]))   


 类似资料:
  • 问题内容: 我在apache和mod_wsgi和PostgreSQL中使用django(都在同一主机上),并且我需要处理很多简单的动态页面请求(每秒数百个)。我面临的问题是,瓶颈是django没有持久的数据库连接,并在每个请求上重新连接(大约需要5毫秒)。在进行基准测试时,我得到了持久连接,我可以处理近500 r / s,而没有连接时,我只能得到50 r / s。 有人有什么建议吗?如何修改Dja

  • 问题内容: 我一直在使用手动数据库选择来处理具有两个独立数据库的项目。我已经在设置中定义了数据库。 进一步阅读之后,看来数据库路由实际上是解决问题的方法。但是,在阅读了文档和此处的一些相关文章之后,我比以往更加困惑。 在我的设置中,我有: 我知道我必须像这样定义路由器类(我认为在文件中): 那呢 每个模型都需要一个还是自动的?除此之外,我仍然得到一个错误: django.core.exceptio

  • 问题内容: 我想在学习Guice的同时创建一个示例项目,该项目使用JDBC读取/写入SQL数据库。但是,在使用Spring多年之后,让它抽象化了连接处理和事务,我正在努力从概念上进行工作。 我想要一个可以启动和停止事务并调用大量存储库的服务,这些存储库可以重用相同的连接并参与相同的事务。我的问题是: 在哪里创建数据源? 如何授予存储库访问连接的权限?(ThreadLocal?) 管理事务的最佳方法

  • context.xml 感谢Sh AntiBhushan

  • 从bugu-mongo 2.11版本开始,支持连接到多个数据库。 在前面的示例代码中,我们都只是连接到一个数据库: //默认的数据库连接 BuguConnection conn = BuguFramework.getInstance().createConnection(); conn.setHost("192.168.0.100"); conn.setPort(27017); conn.setU

  • 问题内容: 我有两个数据库和两个模型:管理员和用户。 我想将我的模型同步到两个数据库;admin模型到数据库A,用户模型到数据库B; 如果我将模型路径设置为和,则两个模型将同步到默认数据库。 如果我在命令中设置数据库,例如,则两个模型将同步到数据库B。 所以我的问题是,如何将两个模型同步到两个数据库? 问题答案: 我完全同意@alecxe使用数据库路由器。我目前正在使用一个管理界面来管理多个数据库