肝了一两个月的论文终于看到了胜利的曙光,不过你会发现这几天或过几天学校教务处的网站上会发来一则通知:《关于2021届本科毕业设计/论文的“查重”检测通知》。
什么?查重是什么鬼?为什么重复度超过30%(一些学校这个比例会更低)还不给答辩?
接下来,我将从以下几个方面来介绍关于查重与降重你得知道的一些知识:
查重是什么?有哪些要求?
如何查重?
查重的原理
降重比较有效的方法
降重的常见误区
一、查重是什么,有哪些要求?
查重即论文查重,就是对比你的论文与曾经发表的论文的相似度或重复度,重复度数值越高说明抄袭的可能性越大。
一般高校对于本科生的论文重复度的可接受上限为30%,优秀论文的上限为20%. 部分重点高校的要求则更严格一些。比如有的要求查重必须在15%以下才可以答辩,重复率在8%以下的才可以被评为院级、校级优秀毕业论文。大家一定要弄清楚自己学校对于这一数据的具体要求是多少。
二、如何查重?
我们提到论文查重的检测机构,一般是指三个大的中文期刊数据库:
中国知网
万方
维普
很多高校都与这三家机构有合作,如果从学校给的指定网址登录,每名学生可以有3次左右的免费查重额度。
大部分高校都是用的是知网查重,但是这个也不是绝对的,建议提前上教务处网站上看自己学校的通知。
比如中科大2020年查重通知是这样写的:
知网数据库收录了1994年以来的期刊论文、报纸、会议论文、博士硕士学位论文等,是目前最全面的中文学术数据库。
除了三大期刊数据库,还有一个paperpass(https://www.paperpass.com/) 是我用过的,相对来说价格便宜,但检测的略严格,所以出来的数据应该比知网等报告的数据重复度要高。
三、查重的原理
知网的查重原理简单来说就是将论文拆成段落和句子,以段落和句子为单位检测重复度。
这里有几个数字需要注意: 5%:以段落为单位,低于5%的抄袭或引用会被忽略。比如:某一段落有1000个字,如果该段落中只有50个字或者更少的字是引用或重复的,那么算法会认为这一段都是原创的。 13个字:当一个段落超过5%是重复内容,那么算法会将段落拆成句子,每句话如果连续13个字相似或重复,则会被判定为全句重复。
四、降重比较有效的方法
当对查重的算法比较了解后,如何降重就会心里有底了。下面介绍几种比较常用的降重方法:
1、增词法 在重复度较高的句子中,看看哪些词语前面可以添加修饰语,比如形容词或数量词等
2、同义词/近义词替换法 用同义词/近义词替换掉句子中的部分词语,达到减少出现连续13字雷同的方法。
可以在网上找一些专门的同义词查询网站,比如类似这样的:https://www.soucici.com/ https://www.cilin.org/
比如: 计算结果为机器人结构设计和零部件选型与校核提供参考依据,对提高工业机器人的定位精度和 运动性能具有实际指导意义。
可以变为:
运算结果为机器人整体架构、核心零部件的选型与校核提供了有益参考,对提高工业机器人的定位精度和运动性能有建设性的指导意义。
3、变换措辞法 在整体把握重复句子的意思后,变换前后语序或个别词语的位置,达到降重的目的。
比如:
计算结果为机器人结构设计和零部件选型与校核提供参考依据,对提高工业机器人的定位精度和 运动性能具有实际指导意义。
可以变为:
通过本章的计算,可以在结构设计、零部件选型与校核等方面为机器人的研发提供有益参考,同时也对强化工业机器人的运动性能、提高定位精度有较高的指导价值。
网上有很多机器自动降重的工具,但也都有免费字数的限制。比如:http://www.xiaofamao.com/ 注册后可以免费查6000字。还有https://www.beiying.online/ 登录后可以每天免费查5000字。
这些工具很多时候出来的结果可读性并不是很好,建议大家仅仅当作参考就好,不要过于依赖
4.中英互译 很多同学应该都听过这种降重方式,就是先将句子用翻译软件翻译为英文,然后再将翻译为英文的句子翻为中文。这样句子的语序或表达方式就会有比较大的变化,从而达到降重的目的。
5、正确标注参考文献 知网的查重系统可以识别出参考文献,参考文献不参与正文的查重。如果查重报告中参考文献显示的是灰色字体,说明没有参与检测。如果被标红,那么就得将参考文献改为合规的格式,那么这部分的重复自然就消失了。
五、降重的误区
以下方法是在降重过程中常见的错误认识:
1、仅将大段落分割成小段落 原因见上面第三部分的查重的原理
2、抄袭那些没有在数据库中的书籍内容 书籍中的一些经典段落及内容很有可能已经被人引用进论文中,直接照搬极有可能判定为抄袭。
3、从不同的文章中提取不同段落拼接成新文章 见第三部分查重的原理:知网的查重是以句子为最小单位的