用于计算机视觉的深度学习依赖于大型注释数据集。这也是得益于 ImageNet 的创建,ImageNet 将 100 万张照片分为 1000 个类别。但是,分类是图像的粗略描述,它限制了分类器的应用,并且没有多标签的图像的大型数据集,这些数据集允许学习和检测有关图像的更丰富的信息。理想情况下,这样的数据集是 >100 万张图像,每个图像至少有 10 个描述性标签,可以公开分发给所有感兴趣的研究人员、业余爱好者和组织。可惜,目前没有这样的公共数据集,如 ImageNet、 Birds, Flowers和 MS COCO在图像或标记计数或受限分布方面都有不足。 boorus(布鲁) 是长期存在的 Web 数据库,承载大量图像,这些图像可以"标记"或标有任意数量的文本描述;它们是为动漫迷开发的, 他们提供了详细的注释。
最有名,注重质量的boorus,是Danbooru。我们提供一个Danbooru大型数据集,其中包含 3tb 的 3.69 亿图像,以及 1.08 亿个标记实例(392k定义标记,29/图像)覆盖Danbooru从 2005-05-24-2019-12-31 (最终 ID: #3,734,659),提供图像文件和JSON导出的元数据。为了方便起见,我们还提供了较小的 SFW 子数据集,其比例为 512×512px JPGs (295GB; 2,828,400 图像)。
我们希望 Danbooru2019 数据集可用于丰富的大规模分类/标记和学习嵌入,测试现有计算机视觉技术(主要使用照片开发)对插图/动画风格的图像的可移植性,为 Danbooru 社区提供存档备份&