【数据集】CMRC 2018中文跨度提取机阅读理解数据集
文件列表(压缩包大小 6.21M)
免费
概述
CMRC 2018 该存储库包含CMRC 2018和DRCD这个公开的中文跨度提取机阅读理解数据集(如SQuAD)以及其BERT基线系统。
CMRC 2018(简体中文):https://github.com/ymcui/cmrc2018
DRCD(繁体中文):https://github.com/DRCSolutionService/DRCD
你可以通过上面的链接下载这些数据集,或者,也可以直接从本资源下载。 请注意,我们使用类似于SQuAD的CMRC 2018数据集,可以通过链接进行访问。
有关更多中文机器阅读理解数据集,请参考:https://github.com/ymcui/Chinese-RC-Datasets
除了TensorFlow == 1.12
之外,没有其他特殊的依赖要求。 也可以在其他版本的TensorFlow上使用(未经测试)。
该代码基于run_squad.py
的官方BERT实现。
可查:https://github.com/google-research/bert/blob/master/run_squad.py
$ PATH_TO_BERT
:BERT权重的路径(TensorFlow版本)$ DATA_DIR
:数据集的路径$ MODEL_DIR
:模型的输出目录python run_cmrc2018_drcd_baseline.py \
--vocab_file=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/vocab.txt \
--bert_config_file=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/bert_config.json \
--init_checkpoint=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/bert_model.ckpt \
--do_train=True \
--train_file=${DATA_DIR}/cmrc2018_train.json \
--do_predict=True \
--predict_file=${DATA_DIR}/cmrc2018_dev.json \
--train_batch_size=32 \
--num_train_epochs=2 \
--max_seq_length=512 \
--doc_stride=128 \
--learning_rate=3e-5 \
--save_checkpoints_steps=1000 \
--output_dir=${MODEL_DIR} \
--do_lower_case=False \
--use_tpu=False
我们对CMRC 2018和DRCD使用官方评估脚本。 请注意,由于DRCD官方不提供评估脚本,因此我们也将cmrc2018_evaluate.py
用于DRCD。
python cmrc2018_evaluate.py cmrc2018_dev.json projections.json
我们提供BERT-Chinese
和BERT-multilingual
的基准线。
请注意,为了获得可靠的结果,每个基准线均进行10次运行,并对它们进行了平均评分(不适用于隐藏集)。
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)