注意:小心使用-数据集有噪音
这是一组脚本,允许自动收集以下(松散定义)类别的上万个图像,稍后用于训练图像分类器:
porn-色情图片
hentai-亨泰图片,还包括色情画
sexy-色情图片,但不是色情图片。想想裸照,花花公子,比基尼等等。
neutral-对日常事物和人的中性形象
drawings-安全工作图纸(包括动画)
1_get_urls_.sh-遍历scripts/source_urls下的文本文件,下载上述5个类别中每个类别的图片的url。Ripme应用程序执行所有的重担。源url主要是指向各种子网站的链接,但可以是Ripme支持的任何网站。注意:我已经为您运行了这个脚本,它的输出位于raw_data目录中。除非您编辑scripts/source_urls下的文件,否则不需要重新运行。
2_download_from_urls_.sh-下载在raw_data目录中的文本文件中找到的URL的实际图像。
3_optional_download_drawings_.sh-(可选)从Danbooru2018数据库下载SFW动画图像的脚本。
4_optional_download_neutral_.sh-(可选)从Caltech256数据集下载SFW中性图像的脚本
5_create_train_.sh-创建data/train目录,并将*.jpg和*.jpeg文件从raw_data复制到其中。同时删除损坏的图像。
6_create_test_.sh-创建data/test目录,并将每个类的N=2000随机文件从data/train移动到data/test(如果需要不同的训练/测试拆分,请在脚本中更改此数字)。或者,可以多次运行它,每次它都会将每个类的N图像从data/train移动到data/test。