IIIT 5K-Word数据集
文件列表(压缩包大小 107.85M)
免费
概述
IIIT 5K-Word数据集
IIIT 5K-word数据集是从Google图像搜索中通过使用广告词,广告牌,门牌号,门牌号,电影海报等查询词来收集图像获得的。
数据集包含来自“场景文本”的5000个裁剪的单词图像和原始数字图像。
数据集分为训练部分和测试部分。
该数据集可用于大型词典裁剪单词识别。 我们还为该数据集提供了超过50万个词典单词的词典。
裁剪的单词图像分为训练集和测试集
有效数据注释,中小型词典
带有50万个单词的词汇(摘自Weinman等,2009)
字符边界框级别的注释
用于计算语言优先级的词典在lexicon.txt文件中,与基于大型词典的识别结果进行比较时,请使用此词典。
(用法:不区分大小写的小/中/大词典的裁剪单词识别)
(用法:区分大小写的字符检测/识别)
例:
>> load testCharBound
>> testCharBound(1).ImgName
ans =
test/1002_1.png
>> testCharBound(1).chars
ans =
PRIVATE
>> testCharBound(1).charBB(1,:) %% Loads bounding box for character "P" (i.e. first character of testCharBound(1).chars)
ans =
4 7 32 45
>> testCharBound(1).charBB(5,:) %% Loads bounding box for character "A" (i.e. fifth character of testCharBound(1).chars)
ans =
115 7 37 43
转载http://cvit.iiit.ac.in/research/projects/cvit-projects/the-iiit-5k-word-dataset
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)