我正试图用大约8000个观察值和一个4个3/2协方差函数的复合内核在2D空间1D时间上运行一个GP回归——这超过了一个内核的处理能力。
如果能够将 GPR 计算分布在多个节点上,而不必求助于变分 GP,那就太好了。这个github问题解释了如何在GPflow 1.0中执行多线程处理,但我并不是在寻找一种并行化许多predict_f
调用的方法。
相反,我想在大型数据集上进行GPR,这意味着反转大于单个核心可以处理的协方差矩阵。有没有办法为集群或云并行化此计算?
如果你对基于MVM的推理感兴趣,我们这里有一个开始:https://github.com/tensorflow/probability/blob/7c70d4a3389680670e989b93561440caaa0fb8cd/tensorflow_probability/python/experimental/linalg/linear_operator_psd_kernel.py#L252我一直在玩随机lanczos求积的logdet,并为求解预条件CG,但到目前为止还没有将它们提交到TFP。
在计算方面,GPflow可以做TensorFlow做的任何事情。换句话说,如果TensorFlow支持云计算,GPflow也会支持它。但是,这并不意味着您无法实现您的TensorFlow计算版本,可能更高效,并且能够在云端运行它。您可以开始查看TensorFlow自定义操作:https://www.tensorflow.org/guide/create_op.
像Cholesky这样的linalg操作很难并行,而且从中节省时间的好处也值得怀疑。尽管在内存方面,集群计算的优势是显而易见的。
假设我有一个具有以下类型的 RDD: 我可以假设整个列表位于同一个工人吗?我想知道某些操作在RDD层面上是否可以接受,还是应该在车手层面计算。例如: 请注意,可能是或任何其他操作的结果,不一定是作为一个整体创建的。 问题是< code>List是分布式的,计算< code>maxItem可能会导致大量网络流量。这可以用以下类型的RDD来处理: 其中,最大项目是在驱动程序中计算的。 所以问题(实际上
问题内容: 我有一个大约有800万条新闻文章的语料库,我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量,但是我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。 谁知道,对于大型数据集,提取TFIDF向量的最佳方法是什么? 问题答案: Gensim具有高效的tf-idf模型,不需要一次将所有内容存
我有一个Spark2.1工作,在这里我维护多个数据集对象/RDD,它们代表我们底层Hive/HDFS数据存储上的不同查询。我注意到,如果我简单地迭代数据集列表,它们一次执行一个。每个单独的查询都是并行操作的,但是我觉得我们没有通过并行运行不同的数据集来最大化我们的资源。
我正在使用spark-sql-2.4。1v和Java 8。我有一个用例,如下所示, 我需要根据另一个数据集的条目进行一些操作。 我需要并行处理所有代码。做同样的事情,我正在尝试如下: 如何在集群上并行工作?
对于我的毕业论文,我需要创建一个扑克动作的数据集来测试模型。我编写了一个函数,该函数读取包含关于手的信息的文本文件,并返回,并将其附加到pandas数据帧中。 我有大约1500个文件,每个文件包含1500~3000个需要传递给这个函数的手,所以我的主脚本看起来像这样。 问题是,运行几个小时后,它变得非常慢。第一个文件大约需要20秒,但它们每次都变慢,在运行8h后,它们开始需要一个多小时。我刚开始为
本文向大家介绍Python读取数据集并消除数据中的空行方法,包括了Python读取数据集并消除数据中的空行方法的使用技巧和注意事项,需要的朋友参考一下 如下所示: 以上这篇Python读取数据集并消除数据中的空行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持呐喊教程。