0 有用
2 下载

【Demo】词汇增强NER

文件列表(压缩包大小 4.47M)

免费

概述

词汇增强的NER

这是对于论文“Simplify the Usage of Lexicon in Chinese NER”的实现,该论文没有在中文NER中合并单词词典的复杂操作,而是将词典加入到中文NER中,这十分简单有效。

源代码说明


要求

  • Python 3.6
  • Pytorch 0.4.1

输入格式

CoNLL格式,每个字符及其标签由一行中的空格分隔。 首选“ BMES”标签方案。

别 O 错 O 过 O 邻 O 近 O 大 B-LOC 鹏 M-LOC 湾 E-LOC 的 O 湿 O 地 O

预训练的嵌入

预训练的嵌入(单词嵌入,char嵌入和bichar嵌入)与Lattice LSTM相同

运行代码

1.从Lattice LSTM 下载字符嵌入和单词嵌入,然后将它们放在data文件夹中。

2.分别在data / MSRANERdata / OntoNotesNERdata / ResumeNERdata / WeiboNER中下载四个数据集。

3.训练四个数据集:

  • 在OntoNotes上进行训练: python main.py --train data/OntoNotesNER/train.char.bmes --dev data/OntoNotesNER/dev.char.bmes --test data/OntoNotesNER/test.char.bmes --modelname OntoNotes --savedset data/OntoNotes.dset

  • 在Resume上进行训练: python main.py --train data/ResumeNER/train.char.bmes --dev data/ResumeNER/dev.char.bmes --test data/ResumeNER/test.char.bmes --modelname Resume --savedset data/Resume.dset --hidden_dim 200

  • 在微博上训练: python main.py --train data/WeiboNER/train.all.bmes --dev data/WeiboNER/dev.all.bmes --test data/WeiboNER/test.all.bmes --modelname Weibo --savedset data/Weibo.dset --lr=0.005 --hidden_dim 200

  • 在MSRA上进行训练: python main.py --train data/MSRANER/train.char.bmes --dev data/MSRANER/dev.char.bmes --test data/MSRANER/test.char.bmes --modelname MSRA --savedset data/MSRA.dset

4.训练/测试自己的数据:使用文件路径修改命令并运行。

来源https://github.com/v-mipeng/LexiconAugmentedNER

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈

评论(0)

0/250

免费 登录即可免费下载

·圈子

位酷友已加入

阿托

积分 • 17069

圈子: 计算机
标签:
算法计算机ner
文件编号:1724
上传时间:2021-03-31
文件大小:4.47M