当前位置: 首页 > 面试题库 >

解释Apache Beam python语法

颛孙国源
2023-03-14
问题内容

我已经阅读了Beam文档,也阅读了Python文档,但是没有找到关于大多数示例Apache Beam代码中使用的语法的很好的解释。

谁能解释什么_|以及>>在下面的代码在做什么?引号中的文本(即“
ReadTrainingData”)是否有意义,或者是否可以与其他任何标签互换?换句话说,该标签如何使用?

train_data = pipeline | 'ReadTrainingData' >> _ReadData(training_data)
evaluate_data = pipeline | 'ReadEvalData' >> _ReadData(eval_data)

input_metadata = dataset_metadata.DatasetMetadata(schema=input_schema)

_ = (input_metadata
| 'WriteInputMetadata' >> tft_beam_io.WriteMetadata(
       os.path.join(output_dir, path_constants.RAW_METADATA_DIR),
       pipeline=pipeline))

preprocessing_fn = reddit.make_preprocessing_fn(frequency_threshold)
(train_dataset, train_metadata), transform_fn = (
  (train_data, input_metadata)
  | 'AnalyzeAndTransform' >> tft.AnalyzeAndTransformDataset(
      preprocessing_fn))

问题答案:

Python中的运算符可以重载。在Beam中,|是的同义词apply,将aPTransform应用于aPCollection以产生一个new
Phtml" target="_blank">Collection>>允许你命名为在各种UI容易显示步骤-的之间的字符串|>>仅用于这些显示目的和识别特定的应用。

参见https://beam.apache.org/documentation/programming-
guide/#transforms



 类似资料:
  • 我不知道语法是什么意思。感谢任何帮助。 谢谢你。

  • 我已经通读了Beam文档,也通读了Python文档,但没有找到关于大多数示例Apache Beam代码中使用的语法的好解释。

  • 本文向大家介绍解释术语“Log Anatomy”相关面试题,主要包含被问及解释术语“Log Anatomy”时的应答技巧和注意事项,需要的朋友参考一下 答:我们将日志视为分区。基本上,数据源将消息写入日志。其优点之一是,在任何时候,都有一个或多个消费者从他们选择的日志中读取数据。下面的图表显示,数据源正在写入一个日志,而用户正在以不同的偏移量读取该日志。

  • 翻译的结果是什么?它会把高级语言变成汇编语言还是机器语言,即二进制代码? 如果是后者,这是否意味着解释语言与介绍集没有关系? 一种语言只能有一个口译员?是因为解释器不做任何优化,所以我们不需要找到更好的解释器吗?

  • 问题内容: 我只是研究了通用编程,接口和,所以我可以理解下面的语句。 但是我不理解在浏览网络时看到的下一条语句。 什么啊 为什么不是还是? 为什么将方法名称放在前面? (对于Generic来说不正确吗?) 该声明是什么意思? 问题答案: 该行通过使用泛型类型参数调用静态方法来创建一个空字符串列表。 在类内部,有一个静态方法声明为: 这具有通用类型参数。我们使用以下方法调用此方法: 并被推断为是由于

  • 当你执行诸如 ceph -w 、 ceph osd dump 、及其他和归置组相关的命令时, Ceph 会返回下列术语及其值: Peering (建立互联) 是一种过程,它使得存储着同一归置组的所有 OSD 对归置组内的所有对象及其元数据统一意见。需要注意的是,达成一致不意味着它们都有最新内容。 Acting Set (在任集合) 一列有序 OSD ,它们为某一特定归置组(或其中一些元版本)负责。