免费口语数字数据集
文件列表(压缩包大小 15.56M)
免费
概述
一、总览 一个简单的音频/语音数据集,由wav文件中8kHz的语音数字记录组成。修整录音使其在开始和结束时几乎保持静音。 FSDD是一个开放的数据集,这意味着它将随着时间的推移和数据的添加而增长。为了实现可重现性和准确的引用,使用Zenodo DOI和git标签对数据集进行版本控制。 二、数据采集 贡献自己的自制录音。所有录音均应为单声道8kHz wav文件,并进行修剪以使静音降至最低。不要忘记使用发言人元数据更新meta.py。 添加数据,按照acquire_data / say_numbers_prompt.py中的记录说明进行操作,然后运行split_and_label_numbers.py制作文件。 三、资料格式 文件以以下格式命名:{digitLabel} {speakerName} {index} .wav示例:7_jackson_32.wav 现在它包含3,000录音(每位讲话者每位数字50),来自6个英语发音。 metadata.py包含有关说话者性别和口音的元数据。
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)