我正在尝试在谷歌云中构建python ETL管道,谷歌云数据流似乎是一个不错的选择。当我浏览文档和开发人员指南时,我看到apache beam始终连接到数据流,因为它是基于它的。我可能会在apache beam中发现处理数据帧的问题。
我的问题是:
我的管道旨在从BigQuery读取数据,对其进行处理并将其重新保存在bigQuery表中。我可能会在我的脚本中使用一些外部API。
关于第一个问题,数据流需要使用Apache Beam。事实上,在Apache Beam之前,有一个叫做Dataflow SDK的东西,它是谷歌专有的,然后它就向Apache Beam开源了。
Python Beam SDK非常简单,只要您投入一点精力,并且您需要的主要进程操作非常接近本机Python语言。
如果您的最终目标是读取、处理和写入BQ,我会说Beam Dataflow是一个很好的匹配。
关于第一个问题,看起来Dataflow最初是为了在Apache SDK中使用它而编写的,这可以在关于Dataflow的官方谷歌云文档中查看到。因此,这可能实际上是使用Apache Beam进行ETL的一个要求。
关于第二个问题,本教程将指导您如何使用Python和Google云平台函数构建自己的ETL管道,这些函数实际上是无服务器的。你能确认一下这个链接是否对你有帮助吗?
问题内容: 我正在使用BeautifulSoup抓取网址,并且我有以下代码 现在在上面的代码中,我们可以用来获取标签和与其相关的信息,但是我想使用xpath。是否可以将xpath与BeautifulSoup一起使用?如果可能的话,任何人都可以给我提供示例代码,以使其更有帮助吗? 问题答案: 不,BeautifulSoup本身不支持XPath表达式。 另一种库,LXML, 不 支持的XPath 1.
就像在主题中一样,我可以使用Thymeleaf布局方言和spring吗?我必须使用Spring标准方言吗? 网上有这么多的资料,这让我很困惑。 我已经开始使用布局方言,但我无法使用整个应用程序。 这是我的模板主文件: 以及控制器返回的我的示例主体文件: 但不幸的是,这段代码只适用于布局方言。 有人能帮我把代码转换成spring标准方言吗? 我的手机配置:
我的目标是开发使用新的Google模块的Java应用程序。我想使用Eclipse的Google插件,因为它很容易调试并上传到Google。 问题是我无法判断是否可以将Google Plugin for Eclipse用于使用Google Modules的Java应用程序。 根据这个评论有可能将Google Modules与带有Google App Engine的Eclipse Web Tools
问题内容: 我查看了Google Cloud SQL的文档和各种搜索,但无法确定是否可以将SQLAlchemy与Google Cloud SQL一起使用,如果可以,则连接URI应该是什么。 我正在寻找使用Flask-SQLAlchemy扩展,并且需要这样的连接字符串: 我看到了Django示例,但看起来配置使用的样式与连接字符串不同。 https://developers.google.com/c
问题内容: 我正在使用大猩猩架构根据用户的表单提交来填充结构。我的结构包含,并且我目前收到以下错误: 如何在要使用大猩猩架构填充的结构中使用? 问题答案: 我创建了一个要点(https://gist.github.com/carbocation/51b55297702c7d30d3ef),它显示了解决此问题的一种方法。您需要为以下四种类型的每一种创建一个:sql.NullString,sql.Nu
问题内容: 我有一类范围 如果我使用正常的工作原理是完美的,但是必须等待每个命令完成并且每个查询需要8秒钟,所以10个查询需要80秒钟。 在并行版本中,如果仅打印范围,则效果很好,但如果尝试执行命令,则说明该过程已在进行中。 {“操作已经在进行中。”} 我该如何解决? 问题答案: Npgsql连接不能同时使用-在任何给定时间点只能运行一个命令(换句话说,没有MARS支持)。 打开多个连接以并行执行