当前位置: 首页 > 教程 > PyTorch >

PyTorch数据集

精华
小牛编辑
128浏览
2023-03-14

在本章中,将更多地关注torchvision.datasets及其各种类型。PyTorch包括以下数据集加载器 -

  • MNIST
  • COCO (字幕和检测)

数据集包括以下两种函数 -

  • transform - 一种接收图像并返回标准内容的修改版本的函数。这些可以与变换一起组合。
  • target_transform - 获取目标并对其进行转换的函数。例如,接受标题字符串并返回索引张量。

MNIST

以下是MNIST数据集的示例代码 -

dset.MNIST(root, train = TRUE, transform = NONE, 
target_transform = None, download = FALSE)

参数如下 -

  • root - 存在已处理数据的数据集的根目录。
  • train - True =训练集,False =测试集
  • download - True =从互联网下载数据集并将其放入根目录。

COCO

需要安装COCO API。以下示例用于演示使用PyTorch的数据集的COCO实现 -

import torchvision.dataset as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = ' dir where images are', annFile = 'json annotation file', transform = transforms.ToTensor())

print('Number of samples: ', len(cap))
print(target)

上面程序代码输出结果如下:

Number of samples: 82783
Image Size: (3L, 427L, 640L)