哪里可以找到向公众开放的大型数据集？ - 问答

我的答案按照数据集的大小排序：

超过1 TB

1000个基因组计划提供了260 TB的人类基因组数据[13]
Internet档案库为研究提供80 TB的Web爬网[17]
TREC会议发布的ClueWeb09[3]数据集（必须签署一份协议，并支付费用）
ClueWeb12[21]现在可用，Freebase的FACC1[22]也可用
印第安纳大学的CNetS提供了一个2.5TB的点击数据集[19]
ICWSM为2011年的会议提供了大量的博客文章[2]（必须注册表格，不是在线表格，但是免费），它大约压缩了2.1 TB
Yahoo News Feed数据集压缩为1.5 TB，未压缩为13.5 TB
蛋白质组共享库提供了几个大型的数据集，最大的是个人基因组计划[11]，规模为1.1 TB，还有其他几个大小超过100GB的

超过1 GB

参考能源分类数据集[12]包含了家庭能源使用的数据，大约压缩了500GB
Tiny Images数据集[10]具有227 GB的图像数据和57 GB的元数据
ImageNet数据集[18]相当大
MOBIO数据集[14]有大约135GB的视频和音频数据
雅虎的Webscope程序[7]为学术研究人员提供了几个1GB以上的数据集，包括一组83GB的Flickr图像特征数据集和用于2011 KDD Cup的数据集[9]，它们来自Yahoo音乐，超过了1GB
Google制作了将单词映射到Wikipedia URL的数据集[15]，此数据集已压缩约10 GB
Yandex最近提供了一个非常大的web搜索点击数据集[1]。你必须在网上注册才能下载，它大约压缩了5.6 GB
Freebase使常规数据转储可用[5]。最大的是他们的Quad dump[4]，大约压缩了3.6GB
美国国家开放语料库[8]大约有4.8GB未压缩
维基百科为最近的Kaggle竞赛提供了一个包含有关编辑信息的数据集[6]，训练数据集约为2.0 GB（未压缩）
研究和创新技术管理局（RITA）提供了一个关于大型航空公司运营的国内航班准时性能的数据集，ASA压缩了这个数据集并提供下载[16]
Google提供的wiki链接数据总计约为1.75GB[20]