当前位置: 首页 > 知识库问答 >
问题:

需要帮助在Google Colab上提取Google卡通数据集

秦鹏飞
2023-03-14

我正在寻找谷歌卡通数据集的工作,网址为https://google.github.io/cartoonset/download.html.我会使用Googel Colab来完成分类任务,但那是以后的事了。目前的挑战是1。如何直接将数据获取到Colab或google drive,我使用了-

! wget --no-check-certificate \
    https://storage.cloud.google.com/cartoonset_public_files/cartoonset100k.tgz

这在colab中只得到一个60kb的小文件,然后第二部分是如何直接在colab temp文件中提取子文件夹。我确实试过了

import shutil
shutil.unpack_archive("cartoonset10k.tgz", "/tmp/")

with tarfile.open('cartoonset10k.tgz', 'r:gz') as tar:
    tar.extractall()

错误-ReadError:不是gzip文件

!tar -xzf cartoonset10k.tgz -C ~/tmp/

gzip:stdin:不是gzip格式tar:子返回状态1 tar:错误不可恢复:立即退出

我可以将数据下载到系统并解压缩,但挑战是再次将其上传到colab,这需要花费我在互联网上的时间。

共有1个答案

甄成弘
2023-03-14

Google要求您在通过http下载之前登录。60k文件实际上是一个HTML页面,要求您登录,而不是数据本身。

使用wget、curl或selenium登录很困难。

幸运的是,您可以使用gsutil直接下载,无需验证。

!gsutil cp gs://cartoonset_public_files/cartoonset100k.tgz .
 类似资料:
  • 选择createdAt大于或等于“2021-08-15t00:00:00.000z”的记录 对于每个用户ID,只返回最新的记录,即按desc顺序按createdAt排序的记录。 返回的文档应该具有原始文档中的所有键。键的数量可能比文档中显示的要多得多。因此,查询应该自动返回所有键。 下面是所需的示例输出:

  • 实际上,我正在尝试在2个不同的插件项目中的2个portlet之间共享数据 以下是我分享数据的步骤: 步骤1:创建名为Senderproj的liferay插件项目,并在Senderport下创建一个portlet,然后在doView方法中编写以下代码 Step2:创建名为Receiverproj的增殖插件项目并创建一个名为Receiverport的portlet,然后在doView方法中编写下面的代

  • 尝试使用Google API的REST调用创建自动化的blogger post(不通过JavaScript或任何其他编码语言)。我能够使用api键和Auth2.0客户端创建所有的谷歌。https://console.cloud.google.com/apis/credentials APi和auth2由于get调用Blogger使用API Key,我可以进行所有的GET活动 为了使用API发布博客

  • 我在尝试为MacBook安装nestJS时遇到了问题,当我使用$npm install-g@nestJS/cli时,这个错误总是在我的终端上弹出。是我做错了什么,还是我没有把这个命令行放在正确的地方?请帮忙:)

  • {photos:[],product:[],report_date:null,report_sum:null,check_number:“”,qr_img:null,qr_link:“”} 旧表单-数据表单: ------WebKitFormBoundaryEFKGXHEAEJV3FGL7内容-配置:表单-数据;name=“report_date”2018-08-17t12:00:00.000z-

  • 基类中的数据提供程序 测试等级 TestNG XML 想知道是否可以只使用1个DataProvider而不是2个?我需要传递“setSheetName”作为参数。想知道如何做到这一点吗?任何反馈都会有很大帮助。我需要读取文件中不同工作表的数据。 谢谢。 *****更新**** 基类上的数据提供程序 测试类 我现在得到的最新错误: 失败:养老金计划PodTests org.testng。TestNG