我的答案按照数据集的大小排序:
超过1 TB
1000个基因组计划提供了260 TB的人类基因组数据[13]
Internet档案库为研究提供80 TB的Web爬网[17]
TREC会议发布的ClueWeb09[3]数据集(必须签署一份协议,并支付费用)
ClueWeb12[21]现在可用,Freebase的FACC1[22]也可用
印第安纳大学的CNetS提供了一个2.5TB的点击数据集[19]
ICWSM为2011年的会议提供了大量的博客文章[2](必须注册表格,不是在线表格,但是免费),它大约压缩了2.1 TB
Yahoo News Feed数据集压缩为1.5 TB,未压缩为13.5 TB
蛋白质组共享库提供了几个大型的数据集,最大的是个人基因组计划[11],规模为1.1 TB,还有其他几个大小超过100GB的
超过1 GB
参考能源分类数据集[12]包含了家庭能源使用的数据,大约压缩了500GB
Tiny Images数据集[10]具有227 GB的图像数据和57 GB的元数据
ImageNet数据集[18]相当大
MOBIO数据集[14]有大约135GB的视频和音频数据
雅虎的Webscope程序[7]为学术研究人员提供了几个1GB以上的数据集,包括一组83GB的Flickr图像特征数据集和用于2011 KDD Cup的数据集[9],它们来自Yahoo音乐,超过了1GB
Google制作了将单词映射到Wikipedia URL的数据集[15],此数据集已压缩约10 GB
Yandex最近提供了一个非常大的web搜索点击数据集[1]。你必须在网上注册才能下载,它大约压缩了5.6 GB
Freebase使常规数据转储可用[5]。最大的是他们的Quad dump[4],大约压缩了3.6GB
美国国家开放语料库[8]大约有4.8GB未压缩
维基百科为最近的Kaggle竞赛提供了一个包含有关编辑信息的数据集[6],训练数据集约为2.0 GB(未压缩)
研究和创新技术管理局(RITA)提供了一个关于大型航空公司运营的国内航班准时性能的数据集,ASA压缩了这个数据集并提供下载[16]
Google提供的wiki链接数据总计约为1.75GB[20]
下面是文中提到的数据集链接:
[1] http://imat-relpred.yandex.ru/en/datasets
[2] http://www.icwsm.org/2011/data.php
[3] http://lemurproject.org/clueweb09.php/
[4] http://wiki.freebase.com/wiki/Data_dumps
[5] http://download.freebase.com/datadumps/latest
[6] http://www.kaggle.com/c/wikichallenge/Data
[7] http://webscope.sandbox.yahoo.com/index.php
[8] http://americannationalcorpus.org/OANC/index.html
[9] http://kddcup.yahoo.com/datasets.php
[10] http://horatio.cs.nyu.edu/mit/tiny/data/index.html
[11] https://proteomecommons.org/dataset.jsp?i=72639
[12] http://redd.csail.mit.edu/
[13] http://www.1000genomes.org/ftpsearch/
[14] https://www.idiap.ch/dataset/mobio
[15] http://www-nlp.stanford.edu/pubs/crosswikis-data.tar.bz2/
[16] http://stat-computing.org/dataexpo/2009/the-data.html
[17] http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/
[18] http://www.image-net.org/index
[19] http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
[20] wiki-links - Wikipedia Links Data - Google Project Hosting