在Apache Beam中读取整个文件

刘兴修

2023-03-14

共有1个答案

全宪

2023-03-14

textio逐行读取文件。因此，在test.Json中，每一行都需要包含一个单独的Json对象。

beam或任何分布式处理引擎的思想是能够并行化输入数据。从您的问题来看，似乎需要进行一些预处理才能将它们拆分为多个JSON。请注意，它不需要在单个文件中，您可以有多个文件，每个文件包含任意数量的json文件。Beam将并行读取这些行。

如果有帮助，一定要接受这个答案。

类似资料：

读取整个HTML文件为String？

问题内容：是否有比以下方法更好的方法来将整个html文件读取为单个字符串变量：问题答案：有来自Apache Commons 的实用程序。如果您使用的还有和。
如何在不读取整行或整个文件的情况下读取令牌

问题内容：是否有一种隐藏的方法可以在不读取整行的情况下从文件或类似文件的对象读取令牌？我立即拥有的应用程序（其他人的问题，不是我的问题）正在将具有几个非常长的行的大型矩阵转置，本质上是对选择单个列元素的迭代器执行操作。这个想法不是在迭代过程中将整个文件存储在内存中。这些行是用空格分隔的ASCII十进制数字。对于Java的Scanner类，问题可能很简单，但我没有在Python标准库中
云数据流：读取整个文本文件而不是逐行读取

最好的方法是什么？
在Python中从二进制文件读取整数

问题内容：我正在尝试在Python中读取BMP文件。我知道前两个字节表示BMP公司。接下来的4个字节是文件大小。当我执行时：我得到： ValueError：以10为底的int（）的无效文字：’F＃\ x13’ 我想做的是将这四个字节读取为整数，但是Python似乎将它们读取为字符并返回一个字符串，该字符串无法转换为整数。如何正确执行此操作？问题答案：该方法将字节序列作为字符串返回。要将字符
在java中不使用循环读取完整文件

可能的重复：如何从文件的内容整个文本文件创建Java字符串我正在尝试使用FileReader读取文件的内容。但是我不想逐行读文件。是否可以不循环地读取整个文件。我正在使用以下代码
apachebeam-bigqueryupsert

我有一个数据流工作，将单个文件分割成x个记录（表）。这些流在bigQuery没有问题。不过，我发现没有办法在结果出来后执行管道中的另一个阶段。举个例子根据上述内容，我希望运行以下内容：是有无论如何运行管道的另一个部分后，up到bigQuery或这是不可能的？提前感谢。

在Apache Beam中读取整个文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档