当前位置: 首页 > 知识库问答 >
问题:

将数据从google云存储加载到BigQuery

张绍晖
2023-03-14

我需要从Google Cloud Storage(GCS->Temp Table->Main table)中加载100个表到BigQuery。我创建了一个python进程,将数据加载到BigQuery中,并在AppEngine中进行调度。因为AppEngine最多有10min的超时时间。我已经在异步模式下提交了作业,并在稍后的时间点检查了作业状态。由于我有100个表,需要创建一个监控系统来检查作业负载的状态。

需要维护几个表和一堆视图来检查作业状态。

操作过程并不复杂。还有更好的办法吗?

谢谢

共有1个答案

岳浩宕
2023-03-14

当我们这样做时,我们只是使用了一个消息队列,比如Beanstalkd,在这里我们推送了一些稍后必须检查的内容,然后我们编写了一个订阅通道并处理任务的小worker。

另一方面:BigQuery支持直接从Google云存储中查询数据。

用例:
-通过从联邦数据源(BigQuery外部的一个位置)查询数据,并将清除的结果写入BigQuery存储,一次加载和清除数据。
-将少量频繁更改的数据与其他表联接。作为联邦数据源,频繁变化的数据不需要每次更新都重新加载。

 类似资料:
  • 我们将Google Cloud Datastore用于Google App Engine(GAE)应用程序。在我们的项目改造期间,我们希望将数据库从Datastore迁移到Google CloudSQL。 我们在数据存储中约有1 TB数据,不包括索引。 如何从数据存储迁移到云SQL,是否有任何现有的开源解决方案可用于此。 我已经检查了下面的一个https://cloud.google.com/da

  • 我正在尝试使用DataFlow(Java)将数据从云存储插入到Big Query中。我可以批量上传数据;但是,我想要设置一个流式上传代替。因此,当新对象添加到我的bucket时,它们将被推送到BigQuery。 我已经将PipelineOptions设置为流,并且在GCP控制台UI中显示dataflow管道是流类型的。bucket中的初始文件/对象集被推送到BigQuery。 但是当我向桶中添加新

  • 我的目标是使用BigQuery web界面将我的所有(GCS创建的)日志从Google Cloud Storage中获取到BigQuery中。由于日志每小时创建一次,所以我喜欢一次导入所有日志来进行分析。 因此,例如gs://logging-bucket/images.mysite.net_storage_2013_03_31_07_00_00_0001a_v0、gs://logging-buck

  • 我正试图从azure blob存储中加载数据到delta lake。我正在使用下面的代码段 storage_account_name=“xxxxxxxxdev”storage_account_access_key=“xxxxxxxxxxxxxxxxxx” file_location=“wasbs://bicc-hdspk-eus-qc@xxxxxxxxdev.blob.core.windows.n

  • 我正在尝试将数据从aws S3加载到谷歌云存储:-我正在使用gsutil-我已经将S3上的文件公之于众 在windows计算机上的gsutil命令行上,我输入了: 谢了。

  • 我正试图从控制台/命令行将一个表从big query导出到google cloud storage。控制台作业运行了几分钟,并在没有任何错误代码的情况下出错,命令行作业在运行一段时间后也会出现以下错误: 提取操作中的BigQuery错误:错误处理作业“数据流-实验:BQJOB_R308FF0F73D1820A6_00000157F77E8AB9_1”:后端错误。作业中止。 上面给出了命令行的作业i