【Demo】词汇增强NER
文件列表(压缩包大小 4.47M)
免费
概述
词汇增强的NER
这是对于论文“Simplify the Usage of Lexicon in Chinese NER”的实现,该论文没有在中文NER中合并单词词典的复杂操作,而是将词典加入到中文NER中,这十分简单有效。
CoNLL格式,每个字符及其标签由一行中的空格分隔。 首选“ BMES”标签方案。
别 O 错 O 过 O 邻 O 近 O 大 B-LOC 鹏 M-LOC 湾 E-LOC 的 O 湿 O 地 O
预训练的嵌入(单词嵌入,char嵌入和bichar嵌入)与Lattice LSTM相同
1.从Lattice LSTM 下载字符嵌入和单词嵌入,然后将它们放在data
文件夹中。
2.分别在data / MSRANER
,data / OntoNotesNER
,data / ResumeNER
和data / WeiboNER
中下载四个数据集。
3.训练四个数据集:
在OntoNotes上进行训练:
python main.py --train data/OntoNotesNER/train.char.bmes --dev data/OntoNotesNER/dev.char.bmes --test data/OntoNotesNER/test.char.bmes --modelname OntoNotes --savedset data/OntoNotes.dset
在Resume上进行训练:
python main.py --train data/ResumeNER/train.char.bmes --dev data/ResumeNER/dev.char.bmes --test data/ResumeNER/test.char.bmes --modelname Resume --savedset data/Resume.dset --hidden_dim 200
在微博上训练:
python main.py --train data/WeiboNER/train.all.bmes --dev data/WeiboNER/dev.all.bmes --test data/WeiboNER/test.all.bmes --modelname Weibo --savedset data/Weibo.dset --lr=0.005 --hidden_dim 200
在MSRA上进行训练:
python main.py --train data/MSRANER/train.char.bmes --dev data/MSRANER/dev.char.bmes --test data/MSRANER/test.char.bmes --modelname MSRA --savedset data/MSRA.dset
4.训练/测试自己的数据:使用文件路径修改命令并运行。
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)