当前位置: 首页 > 知识库问答 >
问题:

使用GCP模板的云存储文本到BigQuery

孟乐
2023-03-14

我正在尝试使用GCP模板执行管道:https://cloud.google.com/dataflow/docs/templates/provided-templates#cloud-storage-text-to-bigquery

但我得到了错误:

2018-03-30 (15:35:17) java.lang.IllegalArgumentException: Failed to match any files with the pattern: gs://.......

任何人都可以共享一个工作的CSV文件以用作运行该管道的输入吗?

共有2个答案

华安民
2023-03-14

我看到这个问题已经得到了回答,但是我也有类似的问题,这个回答对我来说是不全面的——事实证明,模板中的路径模式(至少目前)不支持某些类型的模式。例如,对于给定GCS路径中多个子目录中的多个CSV文件(这是我的用例):

gs://bucket-name/dir/

可行的模式是:

gs://桶-名称/目录/*/*. csv

这些模式虽然通过 gsutil ls 有效并返回正确的文件,但在模板中不起作用:

gs://bucket-name/dir/*

gs://bucket 名/目录/*.csv

孟跃
2023-03-14

问题出在椅子和键盘之间,您只需要根据JSON文件中定义并由JS文件转换的数据结构创建一个CSV文件。

 类似资料:
  • 一旦被dataflow读取的消息就不会得到确认。我们如何确保一旦被数据流消费的消息被确认,并且对任何其他订阅者不可用? 为了重现和测试它,从同一个模板创建2个作业,您将看到这两个作业处理相同的消息。

  • 我有一个要求,我需要上传文件到谷歌云存储(他拥有并完全维护它)桶。 这个谷歌云存储桶是由我的客户创建的。 我是谷歌云的新手,有亚马逊S3的经验。我在服务器上运行SSI,以将事务数据加载到平面文件。 我为谷歌云创建了一个示例帐户,并安装了谷歌SDK。我可以通过gsutil手动上传文件。 我的问题是 > 我应该如何建议我的客户共享凭据? 我如何连接到谷歌云存储与提供凭据独立? 如何通过以上两个步骤将文

  • 我已经将消息发布到一个pub/sub主题,并尝试使用Dataflow和模板将它们流式传输到BigQuery中。(阅读更多关于流媒体模板的信息。) pub/sub消息中的某些字段名包含破折号(),我无法控制破折号,而且Dataflow模板似乎希望目标BigQuery表中的字段名完全相同。BQ的一个限制是字段名中不允许使用破折号(),但允许使用下划线。因此,尽管我在BQ中有列,但我仍然得到如下错误:

  • 我正在appengine虚拟机上开发一个Flask应用程序。我想上传文件到谷歌云存储,所以我使用连接到云存储。仅在VM中测试时,我的应用程序运行正常,没有错误。但是,在我使用部署并在部署的应用程序上测试上载功能后,它失败并返回错误。日志显示了回溯,这是由于连接到云存储的代码行: 具体错误是

  • 我们需要将csv文件从GCP云存储传输到ftp服务器,我们如何实现这一点? 我们可以用bigquery工具将这些文件直接传输到ftp吗? 或者我们需要用服务下载它,然后上传到ftp吗?

  • 我正在尝试在谷歌云上迁移我的rails应用程序。我已将活动存储与地面军事系统上创建的存储桶连接起来。我上传了bucket中的文件夹“storage”,但应用程序中的所有图像都有404错误。 如何正确迁移GCS中的本地存储文件夹? 谢谢你的建议