做语音识别，求相关数据集？ - 问答

汉语情感语料库（CASIA） 由中科院自动化所录制，总共有四个专业说话者以及愤怒、害怕、快乐、中性、悲伤和惊讶六种情绪，有 100 句不同文本和 300 句相同文本，总的样本数为9600 条，数据采集的环境为纯净录音情况下，之中音频包含了文本的信息与静音片段的标志文件，存储方式为 pcm 格式、采样率为 16 kHz、16 bit 量化、35 db 信噪比。
德国柏林情感语音数据库Emo-DB 进行录制的专业发音者总共有10位，共有愤怒、恐惧、无聊、厌恶、幸福、中性和悲伤七种情绪，其中愤怒有127句，恐惧有69句，无聊有81句，厌恶有46句，幸福有71句，中性有79句，以及悲伤有62句。每个录音者都演绎了10句不同文本，总的语音情感样本数为 535 句。为了保证语料的高质量，每位录音者在演绎时都投入了与之相关语句的情感，以达到更精准的分类。虽然 EMO-DB情感语料库样本数量偏少，但是仍为科研人员研究语音情感识别最常用的语料库之一，因为其语料表达情感明确易区分，且语料品质极佳。文本的选取遵循了无明显情感倾向、语义中性的原则。
AISHELL-ASR0009-OS1 希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时，是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz，用于制作AISHELL-ASR0009-OS1。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在95%以上。分为训练集、开发集、测试集。
THCHS-30 汉语语音识别数据 THCHS30是由清华大学语音与语言技术中心（CSLT）出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行，原名为“TCMSD”，代表“清华连续”普通话语音数据库'。 13年后的出版由王东博士发起，并得到了朱晓燕教授的支持。希望为语音识别领域的新研究人员提供玩具数据库。因此，数据库对学术用户完全免费。
aidatatang_1505zh 数据堂推出AI数据开源计划面向高校和学术机构等非商业组织群体，首次开源的数据集为：1505小时中文普通话语音数据集（即：aidatatang_1505zh）。该数据集是目前业内数据量最大、句准确率最高的中文普通话开源数据集。
SLR68 magicdata 该语料库包含755小时的语音数据，其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98％。录音在安静的室内环境中进行。数据库分为训练集，验证集和测试集，比例为51：1：2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化，包括互动问答，音乐搜索，SNS信息，家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别，机器翻译，说话人识别和其他语音相关领域的研究人员。因此，语料库完全免费用于学术用途。

欢迎补充说明~

2021-03-16 16:52 更新

正直的烤面包 • 4006

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答