当前位置: 首页 > 知识库问答 >
问题:

是否可以在我的机器上用tensorflow-transform并行预处理?

唐啸
2023-03-14

我试图使用TensorFlow-Transform V0.11.0和beam仅在本地预处理大量数据(一个tfrecord文件~1GO)。

非常感谢你为我提供的任何帮助!

共有1个答案

任云瀚
2023-03-14

为了增加Anton的注释,您可以使用Apache Flink并行运行管道。在Tensorflow变换中总结了具有flink流道的梁的更多细节

您还必须根据核心的总数设置并行度,并启动许多Flink TaskManagers。我的建议是将并行度设置为(内核总数/2)

 类似资料:
  • 问题内容: 我有一个M5000 Sparc服务器,上面已经安装了solaris Os版本11.3()。可以在这台机器上安装docker- ce吗?我已经测试了一些解决方法,例如使用(开源泊坞窗),但是没有一个可以解决。在sparc系统上进行dockerization的解决方案是什么? 问题答案: 当前在Solaris上不支持Docker。Oracle针对Solaris的容器解决方案一直是Oracl

  • 问题内容: 鉴于我有一个字符串列表。结果必须按照原始行的顺序排列。我想利用新的并行流。 以下代码是否 保证 结果的顺序与原始列表中的顺序相同? 问题答案: TL; DR 是的,订单得到保证。 Stream.collect()API文档 出发点是看什么决定减少是否同时发生。的描述如下: 如果该流是并行的,并且是并发的,或者该流是无序的或收集器是无序的,那么将执行并发缩减(请参阅有关并发缩减的详细信息

  • 问题内容: 我正在研究一个小型django项目,该项目稍后将部署在servlet容器中。但是,如果我使用cPython而不是Jython,开发速度会更快。因此,我想做的是测试我的代码是否在settiings.py中的cPython或Jython上运行,以便我可以告诉它使用适当的数据库驱动程序(postgresql_psycopg2或doj.backends.zxjdbc.postgresql)。有

  • 问题内容: 我想对数据库中的敏感数据使用加密安全的主密钥-这是无法猜测/可预测的,并且不能由数据库生成(在持久存储对象之前,我需要密钥)。 我了解Java使用带有加密安全随机数生成器的4型UUID,但是我知道UUID并不是完全随机的,所以我的问题是,假设无法从一组现有的uuid中预测uuid,这有多安全? 问题答案: 好吧,如果您想知道UUID的随机性,则必须查看源。 以下代码部分摘自OpenJD

  • 但它不止一次地使用消息。有没有人面对过这个问题。此外,使用上述配置,使用者总是在一个批处理中只接收到一个消息。我尝试增加和,但没有任何影响。 在对ConcurrentKafkaListenerContainerFactory进行如下更改后,批处理配置的问题得到了解决: factory.getContainerProperties().SetackMode(org.springFramework.k