当前位置: 首页 > 知识库问答 >
问题:

在Apache Beam中读取整个文件

刘兴修
2023-03-14

共有1个答案

全宪
2023-03-14

textio逐行读取文件。因此,在test.Json中,每一行都需要包含一个单独的Json对象。

beam或任何分布式处理引擎的思想是能够并行化输入数据。从您的问题来看,似乎需要进行一些预处理才能将它们拆分为多个JSON。请注意,它不需要在单个文件中,您可以有多个文件,每个文件包含任意数量的json文件。Beam将并行读取这些行。

如果有帮助,一定要接受这个答案。

 类似资料:
  • 问题内容: 是否有比以下方法更好的方法来将整个html文件读取为单个字符串变量: 问题答案: 有来自Apache Commons 的实用程序。 如果您使用的还有和。

  • 问题内容: 是否有一种隐藏的方法可以在 不 读取整行的 情况下 从文件或类似文件的对象读取令牌?我立即拥有的应用程序(其他人的问题,不是我的问题)正在将具有几个非常长的行的大型矩阵转置,本质上是对选择单个列元素的迭代器执行操作。这个想法不是在迭代过程中将整个文件存储在内存中。 这些行是用空格分隔的ASCII十进制数字。 对于Java的Scanner类,问题可能很简单,但我没有在Python标准库中

  • 问题内容: 我正在尝试在Python中读取BMP文件。我知道前两个字节表示BMP公司。接下来的4个字节是文件大小。当我执行时: 我得到: ValueError:以10为底的int()的无效文字:’F#\ x13’ 我想做的是将这四个字节读取为整数,但是Python似乎将它们读取为字符并返回一个字符串,该字符串无法转换为整数。如何正确执行此操作? 问题答案: 该方法将字节序列作为字符串返回。要将字符

  • 可能的重复: 如何从文件的内容 整个文本文件创建Java字符串 我正在尝试使用FileReader读取文件的内容。但是我不想逐行读文件。是否可以不循环地读取整个文件。我正在使用以下代码

  • 我有一个数据流工作,将单个文件分割成x个记录(表)。这些流在bigQuery没有问题。 不过,我发现没有办法在结果出来后执行管道中的另一个阶段。 举个例子 根据上述内容,我希望运行以下内容: 是有无论如何运行管道的另一个部分后,up到bigQuery或这是不可能的?提前感谢。