【数据集】CMRC 2018中文跨度提取机阅读理解数据集 - 资源下载

0 有用

5 下载

【数据集】CMRC 2018中文跨度提取机阅读理解数据集

文件列表（压缩包大小 6.21M)

免费

概述

CMRC 2018 该存储库包含CMRC 2018和DRCD这个公开的中文跨度提取机阅读理解数据集（如SQuAD）以及其BERT基线系统。

数据集

CMRC 2018（简体中文）：https://github.com/ymcui/cmrc2018

DRCD（繁体中文）：https://github.com/DRCSolutionService/DRCD

你可以通过上面的链接下载这些数据集，或者，也可以直接从本资源下载。请注意，我们使用类似于SQuAD的CMRC 2018数据集，可以通过链接进行访问。

有关更多中文机器阅读理解数据集，请参考：https://github.com/ymcui/Chinese-RC-Datasets

基线系统

依赖要求

除了TensorFlow == 1.12之外，没有其他特殊的依赖要求。也可以在其他版本的TensorFlow上使用（未经测试）。

该代码基于run_squad.py的官方BERT实现。

可查：https：//github.com/google-research/bert/blob/master/run_squad.py

用法

步骤1：下载BERT权重（如果有，请跳过）

中文（基础）
多语种（基础）
步骤2：设定正确的局部变数
$ PATH_TO_BERT：BERT权重的路径（TensorFlow版本）
$ DATA_DIR：数据集的路径
$ MODEL_DIR：模型的输出目录
步骤3：训练
然后，我们使用以下脚本进行训练。我们以CMRC 2018数据集和多语言BERT为例。

python run_cmrc2018_drcd_baseline.py \
    --vocab_file=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/vocab.txt \
    --bert_config_file=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/bert_config.json \
    --init_checkpoint=${PATH_TO_BERT}/multi_cased_L-12_H-768_A-12/bert_model.ckpt \
    --do_train=True \
    --train_file=${DATA_DIR}/cmrc2018_train.json \
    --do_predict=True \
    --predict_file=${DATA_DIR}/cmrc2018_dev.json \
    --train_batch_size=32 \
    --num_train_epochs=2 \
    --max_seq_length=512 \
    --doc_stride=128 \
    --learning_rate=3e-5 \
    --save_checkpoints_steps=1000 \
    --output_dir=${MODEL_DIR} \
    --do_lower_case=False \
    --use_tpu=False

步骤4：评估

我们对CMRC 2018和DRCD使用官方评估脚本。请注意，由于DRCD官方不提供评估脚本，因此我们也将cmrc2018_evaluate.py用于DRCD。

python cmrc2018_evaluate.py cmrc2018_dev.json projections.json

基准结果

我们提供BERT-Chinese和BERT-multilingual的基准线。

请注意，为了获得可靠的结果，每个基准线均进行10次运行，并对它们进行了平均评分（不适用于隐藏集）。

来源https://github.com/ymcui/cmrc2018

理工酷提示：

如果遇到文件不能下载或其他产品问题，请添加管理员微信：ligongku001，并备注：产品反馈

0/250

免费登录即可免费下载

·圈子

位酷友已加入

正直的烤面包

积分 • 4006

圈子：计算机

标签：

计算机数据集人工智能

文件编号：1237

上传时间：2021-03-09

文件大小：6.21M

加入组织

微信扫码，每周推送最新资料

理工酷

首页

圈子

资源下载

数据集

基线系统

依赖要求

用法

步骤1：下载BERT权重（如果有，请跳过）

步骤2：设定正确的局部变数

步骤3：训练

步骤4：评估

基准结果

推荐资源

推荐问题

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

数据集

基线系统

依赖要求

用法

步骤1：下载BERT权重（如果有，请跳过）

步骤2：设定正确的局部变数

步骤3：训练

步骤4：评估

基准结果

推荐资源

推荐问题

加入组织