【Demo】基于深度学习的中文语音识别系统ASRT
文件列表(压缩包大小 6.50M)
免费
概述
ASRT:一个基于深度学习的中文语音识别系统
本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。
CNN + LSTM/GRU + CTC
其中,输入的音频的最大时间长度为16秒,输出为对应的汉语拼音序列
可以在Github本仓库下releases里面的查看发布的各个版本软件的压缩包里获得包含已经训练好模型参数的完整源程序。
发布的成品软件可以在此下载:ASRT下载页面
基于概率图的最大熵隐马尔可夫模型
输入为汉语拼音序列,输出为对应的汉字文本
当前,最好的模型在测试集上基本能达到80%的汉语拼音正确率
不过由于目前国际和国内的部分团队能做到98%,所以正确率仍有待于进一步提高
Python的依赖库
清华大学THCHS30中文语音数据集 data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像 test-noise.tgz OpenSLR国内镜像 OpenSLR国外镜像 resource.tgz OpenSLR国内镜像 OpenSLR国外镜像
Free ST Chinese Mandarin Corpus ST-CMDS-20170001_1-OS.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
AIShell-1 开源版数据集 data_aishell.tgz OpenSLR国内镜像 OpenSLR国外镜像 注:数据集解压方法
$ tar xzf data_aishell.tgz
$ cd data_aishell/wav
$ for tar in *.tar.gz; do tar xvf $tar; done
Primewords Chinese Corpus Set 1 primewords_md_2018_set1.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
aidatatang_200zh aidatatang_200zh.tgz OpenSLR国内镜像 OpenSLR国外镜像
MagicData train_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 dev_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 test_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 metadata.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
特别鸣谢!感谢前辈们的公开语音数据集 如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR
GPL v3.0 © nl8590687 作者:AI柠檬
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)