中文生成任务基准测评
CLGE Chinese Language Generation Evaluation 中文生成任务基准测评 为中文生成任务提供数据集、基准(预训练)模型和排行榜。 一键运行 文本生成方法 LSTM-seq2seq 参考:苏剑林. (2018, Sep 01). 《玩转Keras之seq2seq自动生成标题 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/5861 BERT-UNILM 方案 参考:苏剑林. (2019, Sep 18). 《从语言模型到Seq2Seq:Transformer如戏,全靠Mask 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6933 测评指标 Rouge-1 rouge-1 比较生成文本和参考文本之间的重叠词(字)数量 Rouge-2 rouge-2 比较生成文本和参考文本之间的 2-gram 重叠的数量 Rouge-L rouge-l 根据生成文本和参考文本之间的最长公共子序列得出 BLEU Bilingual Evaluation Understudy 数据集介绍 1.CSL 中长文本摘要生成 百度网盘 提取码: u6mc 中文科学文献数据(CSL),选取 10k 条计算机相关领域论文及其标题作为训练集。 运行结果 模型 Rouge-L Rouge-1 Rouge-2 BLEU 训练参数 ALBERT-tiny 48.11 52.75 37.96 21.63 batch_size=8, length=256, epoch=10, lr=1e-5 BERT-base 59.76 63.83 51.29 41.45 batch_size=8, length=256, epoch=10, lr=1e-5 BERT-wwm-ext 59.40 63.44 51.00 41.19 batch_size=8, length=256, epoch=10, lr=1e-5 RoBERTa-wwm-ext 58.99 63.23 50.74 41.31 batch_size=8, length=256, epoch=10, lr=1e-5 RoBERTa-wwm-large - - - - batch_size=4, length=256, epoch=10, lr=1e-5 LSTM-seq2seq 41.80 46.48 30.48 22.00 batch_size=64, length=256, epoch=20, lr=1e-3 来源https://github.com/CLUEbenchmark/CLGE