当前位置: 首页 > 知识库问答 >
问题:

随机森林回归属性错误:线程对象没有属性_children

轩辕奕
2023-03-14

我得到以下错误时设置我的n_jobs参数

AttributeError: 'Thread' object has no attribute '_children'

我在烧瓶服务中运行这个代码。有趣的是,当运行在烧瓶服务之外时,它不会发生。我只在新安装的Ubuntu盒子上重现过。在我的Mac上,它工作得很好。

这是一个讨论了这一点的线程,但似乎没有超越解决方案:“线程”对象没有属性“_children”-django scikit learn

有什么想法吗?

以下是我的测试代码:


@test.route('/testfun')

    def testfun():
        from sklearn.ensemble import RandomForestRegressor
        import numpy as np

        train_data = np.array([[1,2,3], [2,1,3]])
        target_data = np.array([1,1])

        model = RandomForestRegressor(n_jobs=2)
        model.fit(train_data, target_data)
        return "yey"

堆栈跟踪:



    Traceback (most recent call last):
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1836, in __call__
        return self.wsgi_app(environ, start_response)
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1820, in wsgi_app
        response = self.make_response(self.handle_exception(e))
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1403, in handle_exception
        reraise(exc_type, exc_value, tb)
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1817, in wsgi_app
        response = self.full_dispatch_request()
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1477, in full_dispatch_request
        rv = self.handle_user_exception(e)
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1381, in handle_user_exception
        reraise(exc_type, exc_value, tb)
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1475, in full_dispatch_request
        rv = self.dispatch_request()
      File "/usr/local/lib/python2.7/dist-packages/flask/app.py", line 1461, in dispatch_request
        return self.view_functions[rule.endpoint](**req.view_args)
      File "/home/vagrant/flask.global-relevance-engine/global_relevance_engine/routes/test.py", line 47, in testfun
        model.fit(train_data, target_data)
      File "/usr/local/lib/python2.7/dist-packages/sklearn/ensemble/forest.py", line 273, in fit
        for i, t in enumerate(trees))
      File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/parallel.py", line 574, in __call__
        self._pool = ThreadPool(n_jobs)
      File "/usr/lib/python2.7/multiprocessing/pool.py", line 685, in __init__
        Pool.__init__(self, processes, initializer, initargs)
      File "/usr/lib/python2.7/multiprocessing/pool.py", line 136, in __init__
        self._repopulate_pool()
      File "/usr/lib/python2.7/multiprocessing/pool.py", line 199, in _repopulate_pool
        w.start()
      File "/usr/lib/python2.7/multiprocessing/dummy/__init__.py", line 73, in start
        self._parent._children[self] = None


共有1个答案

缪修德
2023-03-14

这可能是由于多处理中的错误造成的。Python2.7之前存在的虚拟(参见此处和此处)。5和3.3。2.

请参阅注释以确认更新版本适用于OP。

如果您无法升级但有权访问/py/Lib/multiprocessing/dummy/__init。py,在DummyProcess类中编辑start方法,如下所示(应该是第73行):

if hasattr(self._parent, '_children'):  # add this line
    self._parent._children[self] = None  # indent this existing line

DummyProcess就是这个bug存在的地方。让我们看看它在您导入的代码中的位置,以确保我们在正确的位置修补它。

  • 随机回归器
  • 继承:森林回归者
  • 继承:BaseForest
  • 创建于:sklearn。表演团体森林
  • 其中导入:来自sklearn的并行。外部的。joblib
  • 它从多处理导入线程池。游泳池
  • 它从多处理中导入和存储进程。假人
  • 在多处理中也被分配给:DummyProcess。假人

该链中DummyProcess的存在保证了它在导入randomForestRegregator之后已经被导入。此外,我认为在创建任何实例之前,我们都可以访问DummyProcess类。因此,我们可以对类进行一次修补,而无需查找实例进行修补。

# Let's make it available in our namespace:
from sklearn.ensemble import RandomForestRegressor
from multiprocessing import dummy as __mp_dummy

# Now we can define a replacement and patch DummyProcess:
def __DummyProcess_start_patch(self):  # pulled from an updated version of Python
    assert self._parent is __mp_dummy.current_process()  # modified to avoid further imports
    self._start_called = True
    if hasattr(self._parent, '_children'):
        self._parent._children[self] = None
    __mp_dummy.threading.Thread.start(self)  # modified to avoid further imports
__mp_dummy.DummyProcess.start = __DummyProcess_start_patch

除非我错过了什么,否则从现在开始,所有创建的DummyProcess实例都将被修补,因此不会发生错误。

对于任何更广泛地使用sklearn的人,我认为你可以反过来实现这一点,并使它适用于所有sklearn,而不是专注于一个模块。在执行任何sklearn导入之前,您需要导入DummyProcess,并按上述方式对其进行修补。然后sklearn将从一开始就使用补丁类。

原答案:

在我写评论时,我意识到我可能已经发现了您的问题——我认为您的flask环境使用的是较旧版本的python。

原因是,在最新版本的python multiprocessing中,接收错误的行受到以下条件的保护:

if hasattr(self._parent, '_children'):
    self._parent._children[self] = None

看起来这个错误是在python 2.7期间修复的(我认为是从2.7.5修复的)。也许你的瓶子是旧的2.7或2.6?

你能检查一下你的环境吗?如果您不能更新解释器,也许我们可以找到一种方法来进行多重处理,以防止它崩溃。

 类似资料: