我是阿帕奇光束的新手。我有一个要求读一个文本文件的格式如下所示
a=1
b=3
c=2
a=2
b=6
c=5
在这里,直到一个空行的所有行都是一条记录的一部分,需要一起处理(例如,作为列插入到表中)。上面的示例对应于一个只有2条记录的文件。我正在使用ReadFromText读取文件并对其进行处理。它将每一行作为一个元素读取。然后我尝试循环和处理,直到得到空行。
不,您的记录不能保证顺序相同。PCollections本质上是无序的,PCollection中的元素应该是并行化的,这是不同的,不依赖于PCollection中的其他元素。
在您的示例中,您使用的是TextIO,它将文本文件的每一行视为单独的元素,但您需要将记录的每组数据收集为一个元素。有许多潜在的方法来解决这个问题。
>
如果可以修改文本文件,可以将所有数据放在每条记录的一行上,然后在编写的转换中解析该行。这是通常采用的方法,例如使用CSV文件。
如果文件比较复杂,并且您需要一个更健壮的解决方案,您可以实现自己的源代码来读取文件并以您所需的格式输出记录。这很可能涉及到使用可拆分的DOFN,并且需要了解FileBasedSource是如何工作的。
本文向大家介绍golang 使用 viper 读取自定义配置文件,包括了golang 使用 viper 读取自定义配置文件的使用技巧和注意事项,需要的朋友参考一下 viper 支持 Yaml、Json、 TOML、HCL 等格式,读取非常的方便。 viper 官网有案例:https://github.com/spf13/viper 创建 config.yaml 文件 建一个 config.go 用
#我正在用ApachePOI读取excel文件。无法读取日期。在excel中,日期格式2017-03-15 6:00(单元格格式=自定义)
抛出
本文向大家介绍.NET Framework 格式:自定义DateTime格式,包括了.NET Framework 格式:自定义DateTime格式的使用技巧和注意事项,需要的朋友参考一下 示例
基本要求: 熟悉 C++ 编程。 确保下载 TensorFlow 源文件, 并可编译使用。 我们将支持文件格式的任务分成两部分: 文件格式: 我们使用 Reader Op来从文件中读取一个 record (可以使任意字符串)。 记录格式: 我们使用解码器或者解析运算将一个字符串记录转换为TensorFlow可以使用的张量。 例如, 读取一个 CSV 文件,我们使用 一个文本读写器, 然后是从一行文