有没有办法从云函数(最好是基于Python的)运行谷歌数据融合管道?
核心要求是,只要GCS存储桶中有新文件,就会执行基于事件的云功能。云函数反过来需要调用一个数据融合管道,将GCS bucket文件加载到BigQuery中。
要执行云功能,我们可以使用以下方法:
gcloud函数部署hello_gcs_generic--runtime python37--trigger resource YOUR_trigger_BUCKET_NAME--trigger event google。存储对象定稿
可以使用云函数中的API启动管道。
https://cloud.google.com/data-fusion/docs/reference/cdap-reference#start_a_batch_pipeline
目前这是不可能的。然而,到了GA,我们将公开REST API来运行数据管道。然后可以使用REST API从云函数触发管道。
我在nodeJS中有一个主要的谷歌云功能。在这个函数中,我希望通过编程在同一个项目中创建另一个云函数。这个新的云函数的代码可以存储在谷歌云存储的zip文件中。我试着跟着这里的导游走:https://cloud.google.com/functions/docs/reference/rest/v1/projects.locations.functions/create 我能够在测试模拟器中运行查询,
我们在datalab中运行了一个Python管道,它从google云存储(导入google.datalab.storage)中的存储桶中读取图像文件。最初我们使用DirectRunner,效果很好,但现在我们尝试使用DataflowRunner,并且出现导入错误。即使在管道运行的函数中包含“import google.datalab.storage”或其任何变体,也会出现错误,例如“没有名为'da
问题内容: 我正在使用从BigQuery列中提取JSON数据。现在,我要提取值列表并对其运行汇总函数(如)。在http://jsonpath.curiousconcept.com/上测试JsonPath表达式成功。但是查询: 在BigQuery上引发 JsonPath解析错误 。 在BigQuery上可能吗? 还是我需要预处理数据以便对JSON内部的数据运行聚合函数? 我的数据看起来像这样: 更新
我试图使用流重构一些不那么优雅的代码。我有一个包含字符串和MyObject的HashMap,目前正在使用for循环对其进行迭代,如下所示: 因为我只关心id,所以我首先使用map操作只获取id,然后使用filter操作来消除空的id。 下一部分是我遇到的问题。我尝试的第一件事是使用Collectors groupingBy操作,这样我可以根据id的第一个字符对项目进行分组,结果是: 此链接有助于使
问题内容: 我们需要定期处理相当大的数据集(30-40GB)。它有很多按时间排序的值(以及更多信息),但我们基本上需要按月执行一些数学运算。 我们的第一种方法是使用MySQL数据库来备份数据,因为我们对引擎和关系方法有一定的经验。但是,该过程耗时太长,我们想知道NoSQL方法是否可以做得更好。 基本上,我们需要表达的数据是: 我们处理此列表三次,执行简单的数学运算,当我说“处理”时,我的意思是遍历
本文向大家介绍基于文件的数据管理系统,包括了基于文件的数据管理系统的使用技巧和注意事项,需要的朋友参考一下 用于组织和维护数据文件的系统称为基于文件的数据系统。这些文件系统用于处理单个或多个文件,效率不高。 功能性 基于文件的数据管理系统的功能如下- 基于文件的系统有助于任何用户的基本数据管理。 基于文件的系统中存储的数据应保持一致。在基于文件的系统中完成的任何事务都不应更改一致性属性。 基于