CIFAR-10数据集
文件列表(压缩包大小 499.71M)
免费
概述
CIFAR-10数据集
CIFAR-10数据集包含10个类别的60000个32x32彩色图像,每个类别6000个图像。有50000张训练图像和10000张测试图像。
数据集分为五个训练批和一个测试批,每个批次具有10000张图像。测试批包含每个类别中1000个随机选择的图像,训练批按随机顺序取其余图像,但是一个训练批中各类图像的数量不一定相等。但总的训练批中,每个类的图像各5000张。
以下是数据集中的10个类,以及每个类中的10张随机图像:
这些类是完全独立的,互相之间没有重叠。
存档包含文件data_batch_1,data_batch_2,...,data_batch_5和test_batch。每个文件都是由cPickle生成Python的“ pickled”对象。这是一个python2例程,它将打开这样的文件并返回字典:
def unpickle(file):
import cPickle
with open(file, 'rb') as fo:
dict = cPickle.load(fo)
return dict
和python3版本:
def unpickle(file):
import pickle
with open(file, 'rb') as fo:
dict = pickle.load(fo, encoding='bytes')
return dict
以这种方式加载的每个批处理文件都包含一个具有以下元素的字典:
Data:uint8s的10000x3072 numpy数组。阵列的每一行都存储一个32x32彩色图像。前1024个条目包含红色通道值,后1024个包含绿色,最后1024个包含蓝色。图像以行优先顺序存储,因此数组的前32个条目是图像第一行的红色通道值。
labels:10000个数字列表,范围为0-9。索引i处的数字表示数组数据中第i个图像的标签。
数据集包含另一个文件batchs.meta。它也包含一个Python字典对象。它具有以下内容:
二进制版本包含文件data_batch_1.bin,data_batch_2.bin,...,data_batch_5.bin和test_batch.bin。这些文件的每个格式如下:
<1 x label><3072 x pixel>
...
<1 x label><3072 x pixel>
也就是说,第一个字节是第一张图片的标签,它是0-9范围内的数字。接下来的3072个字节是图像的像素值。前1024个字节是红色通道值,中1024个字节是绿色通道值,最后1024个字节是蓝色通道值。这些值以行优先顺序存储,因此前32个字节是图像第一行的红色通道值。
尽管没有任何分隔行,但是每个文件包含10000个像这样的3073字节 "rows"的图像。因此,每个文件的长度应恰好为30730000字节。
还有一个文件,名为batchs.meta.txt。这是一个ASCII文件,它将0-9范围内的数字标签映射到有意义的类名称。它只是10个类名的列表,每行一个。第i行上的类名称对应于数字标签i。
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)