计算机

计算机 · 圈子

8578 位酷友已加入

计算机圈子中包含常用的技术文档、源代码、模型、数据集、学习教程、技术报告等干货资料,加入圈子可以上传、下载资料,也可以使用提问来寻求资料或分享你认为有价值的站外链接~

关注推荐最新

热门标签

资源

【Demo】基于新浪微博数据的情感极性分析

基于新浪微博数据的情感极性分析,使用机器学习算法训练模型,使用的分类方法包括朴素贝叶斯、SVM。 用法 实现功能 分词(使用jieba分词库) 词频统计 情感分析 朴素贝叶斯(使用朴素贝叶斯算法训练模型) 支持向量机(使用了sklearn工具) 特征值提取(使用卡方检验算法) 详细说明 (1)特征值提取 对应文件: feature_extraction.py 主要作用: 输入文本和对应的标签值 使用卡方检验计算每个关键词的相关性 根据需要输出有效关键词列表 核心算法: 卡方检验,排名越高代表特征相关度越高 举例: 考察特征词"喜欢"和类别"positive"的相关性 特征选择 属于"positive" 不属于"positive" 总计 包含"喜欢" A B A + B 不包含"喜欢" C D C + D 总数 A + C B + D N 则卡方("喜欢", "positive") = N(AD - BC)^2 / (A+C)(B+D)(A+D)(B+C) (2)支持向量机 对应文件: svm.py 主要作用: 输入惩罚系数C、关键词列表和训练数据 根据训练数据,构建词向量 根据词向量和训练集标签,利用sklearn工具进行拟合 输入测试词列表,预测分类 核心算法: 词向量构建、支持向量机 (3)朴素贝叶斯 对应文件: naiveBayes.py 主要作用: 输入训练数据集、关键词列表 构建分类模型 输入测试词列表,利用朴素贝叶斯算法计算各类别概率 核心算法: 朴素贝叶斯 来源https://github.com/ljw9609/SentimentAnalysis

计算机

计算机·圈子   首发

阿托 更新了
资源

【Demo】用tensorflow进行中文自然语言处理的情感分析

用Tensorflow进行中文自然语言处理分类实践 词向量下载地址: 链接: https://pan.baidu.com/s/1GerioMpwj1zmju9NkkrsFg 提取码: x6v3 请下载之后在项目根目录建立"embeddings"文件夹, 将下载的文件放入(不用解压), 即可运行代码. 修改了bug后, 可能是数据的顺序变了, 结果模型训练的效果相比之前差了一些, 有兴趣的同学可以调整一下模型参数, 看看会不会有更好的结果. 注意, debug之后的代码在"2019新版debug之后--中文自然语言处理--情感分析.ipynb"里, 对应的语料文件是"negative_samples.txt", "positive_samples.txt"这两个. 教学视频地址: youtube:https://www.youtube.com/watch?v=-mcrmLmNOXA&t=991s bilibili:https://www.bilibili.com/video/av30543613?from=search&seid=74343163897647645 老版本中pos和neg中的语料不全,请解压“语料.zip”覆盖 来源https://github.com/aespresso/chinese_sentiment

计算机

计算机·圈子   首发

阿托 更新了
资源

【Demo】基于知识图谱的问答系统

基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式 Introduction 本项目主要由两个重要的点组成,一是基于BERT的命名实体识别,二是基于BERT的句子相似度计算,本项目将这两个模块进行融合,构建基于BERT的KBQA问答系统,在命名实体识别上分为online predict和outline predict;在句子相似度上,也分为online predict和outline predict,2个模块互不干扰,做到了高内聚低耦合的效果,最后的kbqa相当于融合这2个模块进行outline predict。 相应论文http://www.cnki.com.cn/Article/CJFDTotal-DLXZ201705041.htm 环境配置 Python版本为3.6 tensorflow版本为1.13 XAMPP版本为3.3.2 Navicat Premium12 目录说明 使用说明 实验分析 来源https://github.com/WenRichard/KBQA-BERT

资源

全球数字经济新图景_中国信通院_2020

概述 全球数字经济向三次产业加速渗透。2019 年,全球服务业、工业、 农业数字经济渗透率分别为 39.4%、23.5%和 7.5%,较去年分别提升 1.5、0.7 和 0.5 个百分点。以德国、英国为代表的国家三次产业数字 化渗透水平均较高,以韩国、爱尔兰为代表的国家工业数字化发展更快,以美国、中国等为代表的大多数国家服务业数字化渗透率更高。 中国信息通信研究院已连续四年发布国际数字经济白皮书。2020 年,白皮书在深入分析全球数字经济发展环境变化的基础上,对全球数字经济发展态势进行量化分析,对全球数字经济关键领域变化进行探索,希望研究成果能为推动构建网络空间命运共同体贡献力量。 目录 一、全球数字经济发展环境深刻调整 (一)世界经济深度衰退,国际贸易和投资大幅萎缩 (二)数字技术创新突破,引领科技革命和产业变革 (三)全球供应链深度调整,产业分工格局不断重塑 (四)网络社会加速构建,牵动政治经济文化各领域 (五)数字经济战略升级,塑造数字经济发展新优势 二、全球数字经济在变局中逆势发展 (一)规模大,数字经济体量实现连年增 (二)占比高,数字经济 GDP 占比稳步提升 (三)增速快,数字经济增速实现“逆势上扬” (四)融合深,产业数字化成为发展主战场 (五)渗透强,数字经济推动三次产业转型升级 三、全球数字经济关键领域加快布局 (一)新型基础设施打造数字经济发展新基石 (二)制造业数字化转型加速进入发展新蓝海 (三)数字贸易推动全球经贸关系发生新变革 (四)数据跨境流动成为国际交流合作新焦点 (五)数字服务税规则带来数字经济发展新挑战 (六)央行加速数字货币研发抢夺支付新赛道 四、全球数字经济发展未来前景可期 (一)强化共建共享,繁荣新型基础设施新生态 (二)推动融合创新,促进实体经济数字化转型 (三)凝聚多方共识,探索数据跨境流动制度设计 (四)开展多方探索,构建数字贸易国际规则体系 (五)推动共同研究,制定衡量数字经济统一标准 附件一:参考文献 附件二:测算国家列表 附件三:测算方法说明 附件四:数据来源 撰写单位:中国信息通信研究院

资源

开源生态白皮书_中国信通院_2020

概述 近几年开源技术快速发展,在云计算、大数据、人工智能等领域 逐渐形成技术主流,开源技术已经成为企业构建信息系统的重要选择,国内企业参与开源生态的热情度持续提升。 本白皮书是中国信息通信研究院在开源领域发布的白皮书,分析国内外开源生态发展现状,梳理当前发展热点,展望未来发展趋势。白皮书首先介绍了开源生态发展概况,重点围绕开源布局、开源运营、 开源治理、开源风险、行业开源等开源领域热点话题进行探讨,最后对开源生态未来发展进行了展望。 目录 一、 开源生态概述 (一)开源概念逐渐明晰 (二)开源生态以开源项目为中心构建 二、 开源生态发展现状 (一)开源数量持续攀升,我国开源覆盖全栈技术领域 (二)开源占据各领域主要市场份额,我国开源应用逐年攀升 (三)开源企业数量保持稳定增长,我国企业呈现主动开源趋势 (四)开源基金会成为开源运营重要角色 (五)各行业开源生态已经形成,我国行业积极拥抱开源 (六)开源风险问题凸显,成为开源应用屏障 (七)全球开源治理理念兴起,我国初步形成开源治理模式 (八)开源配套政策正在完善,我国政策引导开源社区构建 三、开源成为企业商业布局的重要手段 (一)全球开源商业模式多样化发展 (二)全球开源企业已启动收购模式,进一步扩大用户群体 (三)我国开源企业已初步构建形成有影响力的开源项目 四、全球开源基金会运营模式成熟,我国率先探索联盟运营机制 (一)良好的开源社区是形成开源代码的前提条件 (二)开源基金会运营通过知识产权托管培育开源社区 (三)我国逐步形成稳定的开源运营机制 五、传统行业逐步拥抱开源生态,我国行业用户关注开源使用 (一)工业互联网布局开源看重产业数字化新机遇 (二)电信行业由用户侧及运营商推动开源,探索产品创新 (三)政府采购行业发展开源看重公开透明 (四)金融机构开源看重产业创新力和市场布局 六、开源风险问题复杂,开源治理体系正在构建 (一)知识产权合规及安全漏洞风险相对普遍 (二)开源法律和知识产权环境推动开源良性发展 (三)开源治理工具加速企业开源治理体系构建 (四)开源治理模式逐步落地 七、开源生态未来发展趋势与建议 (一)开源生态未来发展趋势 (二)我国开源生态发展建议 附录一:开源软件风险扫描 (一)许可证及合规风险 (二)安全漏洞风险 附录二:企业开源治理案例 (一)浦发银行开源治理案例 (二)中信银行开源治理案例 (三)中国银行开源治理案例 (四)中兴开源治理案例 (五)红帽开源治理案例

计算机

计算机·圈子   首发

阿托 更新了
资源

【Demo】中文细粒度命名实体识别

CLUENER2020 中文细粒度命名实体识别 Fine Grained Named Entity 数据类别 数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene) 标签类别定义 & 标注规则 数据下载地址 数据下载 数据分布 训练集:10748 验证集:1343 按照不同标签类别统计,训练集数据分布如下(注:一条数据中出现的所有实体都进行标注,如果一条数据出现两个地址(address)实体,那么统计地址(address)类别数据的时候,算两条数据): 【训练集】标签数据分布如下: 【验证集】标签数据分布如下: 数据字段解释 数据来源 本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS. 效果对比 模型 线上效果f1 Bert-base 78.82 RoBERTa-wwm-large-ext 80.42 Bi-Lstm + CRF 70.00 各个实体的评测结果(F1 score): 实体 bilstm+crf bert-base roberta-wwm-large-ext Human Performance Person Name 74.04 88.75 89.09 74.49 Organization 75.96 79.43 82.34 65.41 Position 70.16 78.89 79.62 55.38 Company 72.27 81.42 83.02 49.32 Address 45.50 60.89 62.63 43.04 Game 85.27 86.42 86.80 80.39 Government 77.25 87.03 88.17 79.27 Scene 52.42 65.10 70.49 51.85 Book 67.20 73.68 74.60 71.70 Movie 78.97 85.82 87.46 63.21 Overall@ Macro 70.00 78.82 80.42 63.41 基线模型(一键运行) tf版本bert系列:tf_version (test, f1 80.42) pytorch版本baseline:pytorch_version(79.63) bilistm+crf的baseline: bilstm+crf (test, f1 70.0) 更多细节请参考https://arxiv.org/abs/2001.04351 来源https://github.com/CLUEbenchmark/CLUENER2020

问答

为什么要使用高斯噪声?

在研究工作中通常使用具有不同SNR级别的高斯噪声来模拟现实环境。研究人员如何保证高斯噪声可以模拟系统的真实性?

计算机

计算机·圈子   首发

阿托 更新了
资源

GitHub项目活跃度分析工具

特性 读取 Commit 信息分析 支持抓取特定时间段的 commit 数据 使用 GraphQL 进行数据的抓取 分析结果自动排行,并生成活跃度折线图 提供所有项目的活跃度、社区化排行 社区化整合图像 样例图片展示 多项目活跃度 多项目社区化 单项目社区化及活跃度 安装需求 Python 3.4 + 使用方法 使用 pip 安装项目 pip install grank 获取 Github 的 Personal Access Token 使用 grank login 设置 Token 使用 grank config 设置社区化企业关键词 使用 grank analy [mode] <owner> [<repository>] 来分析特定用户/组织和项目,比如 grank analy lctt grank,分析结果可以在执行命令目录的 result 目录中找到。 使用命令行模式操作,如 grank --token=XXXX --start=2018-01-01 --stop=2018-05-21 --askrule=0 --rule=inc analy <owner> <repository> 其中 token 必须指定,其他可以使用缺省设置 命令列表 grank checklogin 显示当前 Token 的登录用户 grank login 设置用户 Token grank config 设置关键词,用于社区化分析 grank analy [mode] 分析组织名下或用户名下项目的活跃度或社区化程度,mode 的默认值为all,可设定为social或activity。调用方法 grank analy lctt / grank analy --social lctt grank。 grank clean 清空当前目录下的临时文件和结果,调用方法 grank clean 配置文件说明 来源https://github.com/LCTT/Grank

计算机

计算机·圈子   首发

阿托 更新了
资源

RoBERTa中文预训练模型

中文预训练RoBERTa模型 RoBERTa是BERT的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了State of The Art的效果;可以用Bert直接加载。 本项目是用TensorFlow实现了在大规模中文上RoBERTa的预训练,也会提供PyTorch的预训练模型和加载方式。 中文预训练RoBERTa模型-下载 6层RoBERTa体验版 RoBERTa-zh-Layer6: Google Drive 或 百度网盘,TensorFlow版本,Bert 直接加载, 大小为200M 推荐 RoBERTa-zh-Large 通过验证 RoBERTa-zh-Large: Google Drive 或 百度网盘 ,TensorFlow版本,Bert 直接加载 RoBERTa-zh-Large: Google Drive 或 百度网盘 ,PyTorch版本,Bert的PyTorch版直接加载 RoBERTa 24/12层版训练数据:30G原始文本,近3亿个句子,100亿个中文字(token),产生了2.5亿个训练数据(instance);覆盖新闻、社区问答、多个百科数据等; 本项目与中文预训练24层XLNet模型 XLNet_zh项目,使用相同的训练数据。 RoBERTa_zh_L12: Google Drive 或 百度网盘 TensorFlow版本,Bert 直接加载 RoBERTa_zh_L12: Google Drive 或百度网盘 PyTorch版本,Bert的PyTorch版直接加载 Roberta_l24_zh_base TensorFlow版本,Bert 直接加载 24层base版训练数据:10G文本,包含新闻、社区问答、多个百科数据等 什么是RoBERTa: 一种强大的用于预训练自然语言处理(NLP)系统的优化方法,改进了Transformers或BERT的双向编码器表示形式,这是Google在2018年发布的自监督方法。 RoBERTa在广泛使用的NLP基准通用语言理解评估(GLUE)上产生最先进的结果。 该模型在MNLI,QNLI,RTE,STS-B和RACE任务上提供了最先进的性能,并在GLUE基准上提供了可观的性能改进。 RoBERTa得分88.5,在GLUE排行榜上排名第一,与之前的XLNet-Large的表现相当。 效果测试与对比 Performance 互联网新闻情感分析:CCF-Sentiment-Analysis 模型 线上F1 BERT 80.3 Bert-wwm-ext 80.5 XLNet 79.6 Roberta-mid 80.5 Roberta-large (max_seq_length=512, split_num=1) 81.25 注:数据来源于guoday的开源项目;数据集和任务介绍见:CCF互联网新闻情感分析 自然语言推断:XNLI 模型 开发集 测试集 BERT 77.8 (77.4) 77.8 (77.5) ERNIE 79.7 (79.4) 78.6 (78.2) BERT-wwm 79.0 (78.4) 78.2 (78.0) BERT-wwm-ext 79.4 (78.6) 78.7 (78.3) XLNet 79.2 78.7 RoBERTa-zh-base 79.8 78.8 RoBERTa-zh-Large 80.2 (80.0) 79.9 (79.5) 注:RoBERTa_l24_zh,只跑了两次,Performance可能还会提升; BERT-wwm-ext来自于这里;XLNet来自于这里; RoBERTa-zh-base,指12层RoBERTa中文模型 问题匹配语任务:LCQMC(Sentence Pair Matching) 模型 开发集(Dev) 测试集(Test) BERT 89.4(88.4) 86.9(86.4) ERNIE 89.8 (89.6) 87.2 (87.0) BERT-wwm 89.4 (89.2) 87.0 (86.8) BERT-wwm-ext - - RoBERTa-zh-base 88.7 87.0 RoBERTa-zh-Large 89.9(89.6) 87.2(86.7) RoBERTa-zh-Large(20w_steps) 89.7 87.0 注:RoBERTa_l24_zh,只跑了两次,Performance可能还会提升。保持训练轮次和论文一致: 阅读理解测试 目前阅读理解类问题bert和roberta最优参数均为epoch2, batch=32, lr=3e-5, warmup=0.1 cmrc2018(阅读理解) models DEV sibert_base F1:87.521(88.628) EM:67.381(69.152) sialbert_middle F1:87.6956(87.878) EM:67.897(68.624) 哈工大讯飞 roberta_wwm_ext_base F1:87.521(88.628) EM:67.381(69.152) brightmart roberta_middle F1:86.841(87.242) EM:67.195(68.313) brightmart roberta_large F1:88.608(89.431) EM:69.935(72.538) DRCD(阅读理解) models DEV siBert_base F1:93.343(93.524) EM:87.968(88.28) siALBert_middle F1:93.865(93.975) EM:88.723(88.961) 哈工大讯飞 roberta_wwm_ext_base F1:94.257(94.48) EM:89.291(89.642) brightmart roberta_large F1:94.933(95.057) EM:90.113(90.238) CJRC(带有yes,no,unkown的阅读理解) models DEV siBert_base F1:80.714(81.14) EM:64.44(65.04) siALBert_middle F1:80.9838(81.299) EM:63.796(64.202) 哈工大讯飞 roberta_wwm_ext_base F1:81.510(81.684) EM:64.924(65.574) brightmart roberta_large F1:80.16(80.475) EM:65.249(66.133) 阅读理解测试对比数据来源bert_cn_finetune ? 处地方,将会很快更新到具体的值 RoBERTa中文版 Chinese Version 本项目所指的中文预训练RoBERTa模型只指按照RoBERTa论文主要精神训练的模型。包括: 数据生成方式和任务改进:取消下一个句子预测,并且数据连续从一个文档中获得(见:Model Input Format and Next Sentence Prediction,DOC-SENTENCES) 更大更多样性的数据:使用30G中文训练,包含3亿个句子,100亿个字(即token)。由新闻、社区讨论、多个百科,包罗万象,覆盖数十万个主题,所以数据具有多样性(为了更有多样性,可以可以加入网络书籍、小说、故事类文学、微博等)。 训练更久:总共训练了近20万,总共见过近16亿个训练数据(instance); 在Cloud TPU v3-256 上训练了24小时,相当于在TPU v3-8(128G显存)上需要训练一个月。 更大批次:使用了超大(8k)的批次batch size。 调整优化器等超参数。 除以上外,本项目中文版,使用了全词mask(whole word mask)。在全词Mask中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,即全词Mask。 本项目中并没有直接实现dynamic mask。通过复制一个训练样本得到多份数据,每份数据使用不同mask,并加大复制的分数,可间接得到dynamic mask效果。 使用说明 Instructions for Use 当前本项目是使用sequence length为256训练的,所以可能对长度在这个范围内的效果不错;如果你的任务的输入比较长(如序列长度为512),或许效果有影响。 有同学结合滑动窗口的形式,将序列做拆分,还是得到了比较好的效果, 中文全词遮蔽 Whole Word Mask 说明 样例 原始文本 使用语言模型来预测下一个词的probability。 分词文本 使用 语言 模型 来 预测 下 一个 词 的 probability 。 原始Mask输入 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。 全词Mask输入 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。 模型加载(以Sentence Pair Matching即句子对任务,LCQMC为例) 下载LCQMC数据集,包含训练、验证和测试集,训练集包含24万口语化描述的中文句子对,标签为1或0。1为句子语义相似,0为语义不相似。 tensorFlow版本: 预训练 Pre-training 1) 预训练的数据 data of pre-training 你可以使用你的任务相关领域的数据来训练,也可以从通用的语料中筛选出一部分与你领域相关的数据做训练。 通用语料数据见nlp_chinese_corpus:包含多个拥有数千万句子的语料的数据集。 2) 生成预训练数据 generate data for pre-training 包括使用参照DOC-SENTENCES的形式,连续从一个文档中获得数据;以及做全词遮蔽(whole word mask) shell脚本:批量将多个txt文本转化为tfrecord的数据。 3)运行预训练命令 pre-training 去掉next sentence prediction任务 Learning Curve 学习曲线 对显存的要求 Trade off between batch Size and sequence length System Seq Length Max Batch Size RoBERTa-Base 64 64 ... 128 32 ... 256 16 ... 320 14 ... 384 12 ... 512 6 RoBERTa-Large 64 12 ... 128 6 ... 256 2 ... 320 1 ... 384 0 ... 512 0 来源https://github.com/brightmart/roberta_zh

资源

中文预训练ALBERT模型

中文语料上预训练ALBERT模型:参数更少,效果更好。预训练小模型也能拿下13项NLP任务,ALBERT三大改造登顶GLUE基准、 一键运行10个数据集、9个基线模型、不同任务上模型效果的详细对比,见中文语言理解基准测评 CLUE benchmark 一键运行CLUE中文任务:6个中文分类或句子对任务(新) 使用方式: 1、克隆项目 2、运行一键运行脚本(GPU方式): 会自动下载模型和所有任务数据并开始运行。 执行该一键运行脚本将会自动下载所有任务数据,并为所有任务找到最优模型,然后测试得到提交结果 模型下载 Download Pre-trained Models of Chinese 1、albert_tiny_zh,albert_tiny_zh(训练更久,累积学习20亿个样本),文件大小16M、参数为4M 训练和推理预测速度提升约10倍,精度基本保留,模型大小为bert的1/25;语义相似度数据集LCQMC测试集上达到85.4%,相比bert_base仅下降1.5个点。 lcqmc训练使用如下参数: --max_seq_length=128 --train_batch_size=64 --learning_rate=1e-4 --num_train_epochs=5 albert_tiny使用同样的大规模中文语料数据,层数仅为4层、hidden size等向量维度大幅减少; 尝试使用如下学习率来获得更好效果:{2e-5, 6e-5, 1e-4} 【使用场景】任务相对比较简单一些或实时性要求高的任务,如语义相似度等句子对任务、分类任务;比较难的任务如阅读理解等,可以使用其他大模型。 例如,可以使用Tensorflow Lite在移动端进行部署,本文随后针对这一点进行了介绍,包括如何把模型转换成Tensorflow Lite格式和对其进行性能测试等。 一键运行albert_tiny_zh(linux,lcqmc任务): albert_tiny_google_zh(累积学习10亿个样本,google版本) 模型大小16M、性能与albert_tiny_zh一致 albert_small_google_zh(累积学习10亿个样本,google版本) 速度比bert_base快4倍;LCQMC测试集上比Bert下降仅0.9个点;去掉adam后模型大小18. 2、albert_large_zh,参数量,层数24,文件大小为64M 参数量和模型大小为bert_base的六分之一;在口语化描述相似性数据集LCQMC的测试集上相比ber 3、albert_base_zh(额外训练了1.5亿个实例即 36k steps * batch_size 4096); albert_base_zh(小模型体验版), 参数量12M, 层数12,大小为40M 参数量为bert_base的十分之一,模型大小也十分之一;在口语化描述相似性数据集LCQMC的测试集上相比bert_base下降约0.6~1个点; 相比未预训练,albert_base提升14个点 4、albert_xlarge_zh_177k ; albert_xlarge_zh_183k(优先尝试)参数量,层数24,文件大小为230M 参数量和模型大小为bert_base的二分之一;需要一张大的显卡;完整测试对比将后续添加;batch_si 快速加载 依托于Huggingface-Transformers 2.2.2,可轻松调用以上模型。 其中MODEL_NAME对应列表如下: 模型名 MODEL_NAME albert_tiny_google_zh voidful/albert_chinese_tiny albert_small_google_zh voidful/albert_chinese_small albert_base_zh (from google) voidful/albert_chinese_base albert_large_zh (from google) voidful/albert_chinese_large albert_xlarge_zh (from google) voidful/albert_chinese_xlarge albert_xxlarge_zh (from google) voidful/albert_chinese_xxlarge 更多通过transformers使用albert的示例 预训练 Pre-training 生成特定格式的文件(tfrecords) Generate tfrecords Files Run following command 运行以下命令即可。项目自动了一个示例的文本文件(data/news_zh_1.txt) 如果你有很多文本文件,可以通过传入参数的方式,生成多个特定格式的文件(tfrecords) Support English and Other Non-Chinese Language: 执行预训练 pre-training on GPU/TPU using the command 环境 Environment Use Python3 + Tensorflow 1.x e.g. Tensorflow 1.4 or 1.5 下游任务 Fine-tuning on Downstream Task 使用TensorFlow: 以使用albert_base做LCQMC任务为例。LCQMC任务是在口语化描述的数据集上做文本的相似性预测。 We will use LCQMC dataset for fine-tuning, it is oral language corpus, it is used to train and predict semantic similarity of a pair of sentences. 下载LCQMC数据集,包含训练、验证和测试集,训练集包含24万口语化描述的中文句子对,标签为1或0。1为句子语义相似,0为语义不相似。 通过运行下列命令做LCQMC数据集上的fine-tuning: 来源https://github.com/brightmart/albert_zh

  • 1
  • 91
  • 92
  • 93
  • 168
前往