0 有用
5 下载

【数据集】CMRC 2018中文跨度提取机阅读理解数据集

文件列表(压缩包大小 6.21M)

免费

概述

CMRC 2018 该存储库包含CMRC 2018和DRCD这个公开的中文跨度提取机阅读理解数据集(如SQuAD)以及其BERT基线系统。

数据集

CMRC 2018(简体中文):https://github.com/ymcui/cmrc2018

DRCD(繁体中文):https://github.com/DRCSolutionService/DRCD

你可以通过上面的链接下载这些数据集,或者,也可以直接从本资源下载。 请注意,我们使用类似于SQuAD的CMRC 2018数据集,可以通过链接进行访问。

有关更多中文机器阅读理解数据集,请参考:https://github.com/ymcui/Chinese-RC-Datasets

基线系统

依赖要求

除了TensorFlow == 1.12之外,没有其他特殊的依赖要求。 也可以在其他版本的TensorFlow上使用(未经测试)。

该代码基于run_squad.py的官方BERT实现。

可查:https://github.com/google-research/bert/blob/master/run_squad.py

用法

步骤1:下载BERT权重(如果有,请跳过)
  • 中文(基础)
  • 多语种(基础
    步骤2:设定正确的局部变数
  • $ PATH_TO_BERT:BERT权重的路径(TensorFlow版本)
  • $ DATA_DIR:数据集的路径
  • $ MODEL_DIR:模型的输出目录
    步骤3:训练
    然后,我们使用以下脚本进行训练。 我们以CMRC 2018数据集和多语言BERT为例。
python run_cmrc2018_drcd_baseline.py \
    --vocab_file=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/vocab.txt \
    --bert_config_file=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/bert_config.json \
    --init_checkpoint=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/bert_model.ckpt \
    --do_train=True \
    --train_file=${DATA_DIR}/cmrc2018_train.json \
    --do_predict=True \
    --predict_file=${DATA_DIR}/cmrc2018_dev.json \
    --train_batch_size=32 \
    --num_train_epochs=2 \
    --max_seq_length=512 \
    --doc_stride=128 \
    --learning_rate=3e-5 \
    --save_checkpoints_steps=1000 \
    --output_dir=${MODEL_DIR} \
    --do_lower_case=False \
    --use_tpu=False
步骤4:评估

我们对CMRC 2018和DRCD使用官方评估脚本。 请注意,由于DRCD官方不提供评估脚本,因此我们也将cmrc2018_evaluate.py用于DRCD。

python cmrc2018_evaluate.py cmrc2018_dev.json projections.json
基准结果

我们提供BERT-ChineseBERT-multilingual的基准线。

请注意,为了获得可靠的结果,每个基准线均进行10次运行,并对它们进行了平均评分(不适用于隐藏集)。

来源https://github.com/ymcui/cmrc2018

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈

评论(0)

0/250