计算机毕业设计

计算机毕业设计 · 圈子

8873 位酷友已加入

本圈子收集计算机类的毕业设计与毕业论文,本科、硕士、博士各阶段的都可以,上传时请尽量注明毕设的概述信息~加入圈子可以上传、下载资料,也可以使用提问来寻求资料或分享你认为有价值的站外链接~

关注推荐最新

热门标签

资源

【毕业设计】基于Android和Flask的最炫广场舞APP设计与开发

基于Android和Flask的最炫广场舞APP设计与开发 一、研究目的 广场舞在国内越来越受到广大中老年群体的喜爱,舞群组织不规范导致扰民问题时有发生、舞蹈教学视频缺乏导致广场舞爱好者训练难等问题。为了解决上述问题,设计和研发了最炫广场舞APP。 二、功能需求 本系统设计下列功能需求:1)提供周边舞群功能,规范市民周边舞群活动地点,并且做好登记和管理工作;2)提供当前热门舞蹈教学视频以及用户视频上传分享功能;3)提供周边舞具商品推荐功能;4)提供舞友交流功能。移动端基于Android实现,后台管理功能基于Python的Flask框架实现,数据库采用非关系型数据库MongoDB来搭建。系统所需图片、视频等文件信息存放在Apache服务器上,后端具体服务和文件存放部署在阿里云服务器上。 三、研究结果 为了满足预期目标,本系统重点在于设计实现周边舞群搜索和导航核心功能,以及舞蹈视频及时更新和上传下载功能,舞具商城、我的舞友以及时间服务功能。在实现的过程中,对于如何调用百度地图SDK实现用户定位和相关舞群地址反向解析,并显示在用户端手机地图上遇到了不小困难,但是最后通过反复查阅专业书籍和网上博客文章,成功的解决了这一难题。在实现时间服务功能模块,由于Android系统的升级对闹钟API的安全性进行了限定,导致相关方法调用在到了指定时间后不会出现提醒,这也是本次系统开发中遇到的问题,最后通过参考GitHub上相关优秀项目示例,最终也成功解决了这一问题。 最后,本文基本上实现了系统立项时预定的所有需求功能。由于时间原因,除了系统核心功能外,存在部分功能实现的效果可能不符合预期要求。但是,后续时间充裕时,我还会继续丰富完善本系统相关功能。 四、目录 摘 要 Abstract 1 前言 1.1背景介绍 1.2 系统架构方案 1.3 系统开发工具及部署环境 2 需求分析 2.1 可行性研究 2.2 功能需求 2.2.1 功能划分 2.2.2 功能描述 2.3 用例图 2.3.1 用例模型 2.3.2 用例描述 2.4 外部配置及接口需求 2.4.1 移动端APP配置需求 2.4.2 软件接口 2.5 性能需求 2.5.1 时间特性要求 2.5.2 灵活性及精度 3 系统设计 3.1 概要设计 3.1.1 设计目标 3.1.2 系统技术框架介绍 3.1.3 系统技术架构 3.2 详细设计 3.2.1 系统主要功能模块设计与实现 3.2.2 系统功能界面设计 3.2.1 系统后端接口设计 3.3 数据库(存储)设计 3.3.1 集合 3.3.2 文档数据模型 3.3.3 具体代码映射实现 4 调试与分析 4.1 测试准则 4.2 测试目标 4.3 测试及结果 4.3.1 舞群定位和周边舞群模块 4.3.2 舞蹈视频上传模块 4.3.3 舞蹈播放源信息及评论信息模块 4.3.4 时间服务功能模块 结论 致谢 参考文献 via:https://github.com/ZLiu21/TheBestSquareDance

资源

【毕业设计】企业员工绩效考评APP的设计与实现

企业员工绩效考评APP的设计与实现 需求分析 系统主要完成的工作包括:针对员工提交的日常工作,做出公平公正的全方位考核;根据具体考核分值,按照设定的绩效考核奖惩办法,给予工作相应奖励或惩罚。 主要功能模块如下(这里提供思路,可自行扩展): 1.普通员工操作模块需要以下功能: 工作日志的管理;个人信息维护;企业通讯录;企业公告。 2.主管操作模块需要以下功能: 员工工作日志管理;个人信息维护; 绩效评分管理: 对直属部门下每个员工所负责的任务进行绩效评定(打分) 员工绩效管理 管理员工的绩效分数 3.系统管理员操作模块需要以下功能: 部门管理;企业公告管理; 考核项目维护、评分标准维护: crud项目和项目的任务,设定任务权重和评分标准等 绩效评分管理: 对全公司员工所负责的任务进行绩效评定(打分) 个人信息维护;系统管理,包括角色管理、用户管理、权限管理、控制面板等功能。 4.能够配置不同评分标准来进行绩效考评。 5.能够根据条件统计,绘制统计图:员工考评评分结果统计,可分别按绩效考评项、员工、时间段进行统计。 技术选型 本项目是java语言的前后端分离的webapp: 前端:html+mui+jquery,HBuilder开发,nginx部署 后端:jdk8+springboot+mybatisPlus,idea开发,tomcat部署 由于前后端分开开发,会产生跨域问题,故开发中用nginx做代理服务器 数据库设计 user(用户表) 字段:自增user_id, emp_id(外键关联employee表), password, role(0管理员,1部门主管,2普通员工), last_login_time, isActive(0失效,1生效) department(部门表) 字段:自增dpart_id, dpart_name employee(员工表) 字段:自增id,emp_id,emp_name, dpart_id(外键关联department), status(0离职,1在职) daily_log(工作日志表) 字段:自增id, emp_id(外键关联employee), content, create_time, last_upd_time, status(0未审阅,1已审阅) project(项目表) 字段:自增prj_id, create_time, finish_time, prj_desc(项目描述), status(0未开始,1进行中,2已完成,3已作废) prj_task(项目任务表) 字段:自增task_id, prj_id(外键关联project), weight, create_time, finish_time, task_desc(任务描述), score_desc(评分标准说明), status(0未开始,1进行中,2已完成,3已作废) task_eva(任务绩效表) 字段:自增eva_id, emp_id(外键关联employee), create_time, finish_time, last_upd_time, score, status(0未开始,1进行中,2已完成,3已作废) notice(公告表) 字段:自增nt_id, title, content, create_time login 字段:自增id, user_id(外键关联user表), login_time via:https://github.com/gunnersK/Epes

资源

协同过滤音乐推荐

协同过滤音乐推荐 协同过滤 音乐推荐 深度学习 音乐检索 介绍 项目主要工作在Million Song Dataset数据集下基于Python的 scikit-surprise库实现了基于协同过滤的音乐推荐,还有用 CNN (卷积神经网络) 实现相似音乐推荐。 其中,协同过滤主要基于 Python scikit-surprise库的 文档(Documents) 写的协同过滤算法, 所采用的数据集的原因,协同过滤出来的指标比较低是系统中协同过滤的结果,采用三个算法输出的结果投票。 另外就是参照下面的参考项目做了基于深度学习的音乐推荐,该项目主要实现相似相似旋律的音乐推荐。其主要通过CNN对音乐音频信息进行特征提取,然后对提取后的特征向量与实现保存好的一些音乐特征向量进行相似度匹配,将相似度最高的几首音乐作为推荐结果。该方法可以用于音乐检索,音乐防抄袭等领域。 本项目特有的部分是,将上述两种方法融合,并写了个web展示效果。由于Million Song Dataset数据集没有歌曲内容信息,本人找了某易云的爬虫代码,建立Million Song Dataset数据集中的音乐id与某易云的音乐 id的映射(期间被封过 IP)。然后将音乐的内容进行时频转换后,送入卷积神经网络,得到歌曲特征向量,通过特征向量的相似度匹配,找出相似的音乐信息。 参考项目 中文地址 私人定制——使用深度学习Keras和TensorFlow打造一款音乐推荐系统 英文地址 building a music recommender with deep learning 微信小程序版实现 环境说明 Python 推荐使用Anaconda作为Python基础环境,推荐前往 清华大学镜像下载 最新版安装包。为避免多个Python环境造成的相互冲突等问题,建议使用Python虚拟环境进行管理。步骤如下: 打开Anconda终端或者cmd,使用命令conda create -n MRC python=3.6.5创建一个名为MRC的Python虚拟环境(MRC即Music Recommendation的缩写); 输入conda activate MRC激活MRC虚拟环境,在此虚拟环境下安装需要的Python第三方库; 使用命令conda install --yes --file requirements.txt批量所需的Python组件依赖(requirements.txt文件在back-end\recommend_service目录下,建议上述步骤可在该目录下进行),对于有些安装失败的可单独使用conda命令或pip命令安装; 至此项目所需的Python环境安装完成。 SoX SoX是开源的音频处理软件,本项目使用该工具处理音频文件。本项目tools目录下已提供Windows安装包,安装教程参考这篇文章,并注意 将SoX添加到环境变量。 WAMP WAMP环境即Windows操作系统、Apache服务器、MySQL数据库以及PHP语言,可直接使用phpStudy或者appserv等集成环境一键安装。Linux操作系统请自行安装相应的 LAMP环境。 MySQL数据库环境需要进行如下设置,新建名为 music_recommender 的数据库,数据库用户名为 music_system,密码为 music_system,并注意给予相应的数据库访问权限,然后导入 back-end\DataBase 目录下的 music_recommender.sql 文件中的数据。推荐使用开源的数据库管理客户端 HeidiSQL 管理数据库。 Node.js 前端开发环境所需依赖,前往官网下载最新稳定版安装包进行安装。安装Node环境后打开终端命令行并且切换到 front-end 目录下,使用命令 npm install 安装前端依赖,出现安装失败问题可尝试 设置淘宝镜像源 或者使用 yarn/cnpm 等方式。 前端开发工具 HBuilderX 由于小程序使用uni-app框架开发,故配合使用 HBuilderX 进行开发能够更加便捷的开发和操作,具体开发步骤、调试技巧等参考uni-app文档。 微信开发者工具 运行说明 后台服务端部署 将 back-end 整个目录移动到 WAMP 环境安装目录的 www 目录下,并将目录重命名为 MRC 以保证和前端的请求 url 相同。 启动推荐服务 使用 Anconda终端或者 命令行 切换到 back-end\recommend_service或者 MRC\recommend_service目录下,运行命令 conda activate MRC 激活 MRC 虚拟环境,激活环境后输入 python recommend_service.py 运行推荐脚本。 运行小程序 使用HBuilderX打开front-end目录,(可选、推荐:将小程序的appID更换为自己的appID),点击工具栏的 运行 → 运行到小程序模拟器 → 微信开发者工具,uni-app框架将自动打包项目在dist\dev目录下生成为原生微信小程序项目mp-weixin,并自动运行 微信开发者工具 打开项目,即可在 微信开发者工具 中查看运行结果。 常见问题 SoX报错 对于Windows系统下可能会出现的Unable to load MAD decoder library (libmad) function错误,解决方法可参考 这个问题的答案。此报错只需将 tools 目录下提供的两个库文件,放到 SoX 安装目录下即可。 小程序无内容 如出现推荐无内容,需确保推荐脚本 recommend_service.py 已正常运行; 确保front-end项目代码下的 src\config\index.js文件中对应的 url 地址与实际环境的url地址一致,包括端口等; 如出现搜索无内容,需确保当前计算机正常联网,以便能正常获取网易云音乐的数据。 HBuilderX无法自动运行微信开发者工具 若出现无法自动运行微信开发者工具的情况可提前手动运行工具或者参考这个 解决方案。 小程序真机运行无内容 想要在真机环境下运行小程序,可将back-end目录部署到远程服务器或者将本地计算机与手机处在同一局域网内,并在 front-end 项目代码下的 src\config\index.js 文件中对应的 url 地址替换成相应的地址。 技术栈 Python Flask + Tensorflow + scikit-surprise PHP/MySQL/HTML/CSS/JQuery Docker 部署 依赖 Docker Docker-compose 运行步骤 clone此项目 git clone git@github.com:MakingL/music_recommendation.git, cd music_recommendation 先 git fetch --all, 切换到分支 git checkout docker-config 启动 docker 容器:docker-compose up -d 导入数据库,PHPMyAdmin 导入 SQL 文件不能超过2M,建议用Navicat导入 浏览器访问 PHPMyAdmin: http://localhost:8080/ (此处的地址 localhost 应根据实际情况而定) root 用户密码: tiger 新建数据库, 注意编码为 utf8mb4 数据库名: music_recommender 用户名: music_system (注意给权限) 密码: music_system 导入数据 vender/DataBase/music_recommender.sql 到该数据库 在浏览器中访问网站 http://localhost/,预置的登录用户: 用户名: admin, 密码: admin123 用户名: root, 密码: root1234 运行界面 用户登录 协同过滤推荐 播放歌曲 CNN推荐结果 相关资源推荐 提供免费音乐的音乐库网站 推荐系统研究中的九大数据集 推荐系统基础知识 --- Github 转载自https://github.com/MakingL/music_recommendation

资源

EEC课程-诗歌项目

项目综述 Poem Inspire是一个功能丰富诗歌搜索网站。它涵盖了全部诗经、唐宋古诗30万余首、宋词元曲等2万余首、中文现代诗5千余首、英文现代诗1万余首、诗歌配图约18万张、赏析5千余篇,以及相应的2万余名诗人信息、1万余个标签。 我们实现的具体功能包括: **信息整合:**对每首诗提供信息页面,包括正文、作者、意象、标签、年代、自动配图,有助于读者对一首诗产生直观印象; **分类查看:**对作者、流派、标签等制作专门页面,方便用户阅读研究该类别下的诗歌; **模糊搜索:**将用户的输入对标题、正文、赏析等多个搜索域进行搜索,展现全面的内容; **精确搜索:**集成在在高级搜索的多个选择框内,用户可指定对某类诗的某个域搜索; **词义联想:**考虑到用户输入现代汉语与古诗词的差异性,我们实现了古词联想,比如输入“酒店”,联想到“逆旅 酒楼 客舍 酒肆 旅亭 馆驿 帆宿 客馆 酒家 炊烟 厨香 杏花村...”; **自动配图:**用户输入某首诗,将分析其表达的意象,并返回主题最适合的配图; **以图搜诗:**用户上传一张图片,将分析图片包含的物体、场景、情感信息,搜索返回与图片最相符合的诗歌; **以图写诗:**用户上传一张图片,并可以自由选择特征信息,自动从图片生成现代诗、绝句及律诗。 **每日推荐:**主页每日推荐,包括横幅诗图、古诗现代诗推荐、标签推荐等; 网站架构 我们采用Bootstrap作为前端的框架,利用Javascript实现了与模型有关的部分的前后端的异步交互,后端利用web.py实现对网页前端的支持,使用高效的elastic-search实现数据的索引和搜索。 使用额外数据和词频分析建立了现代诗和古诗的词典和TF-IDF词典,并借助jieba的有关功能实现了现代诗和古诗文的文本分析和关键词抽取。使用深度卷积神经网络实现了图片到物象的转化以及建立图片与诗歌间的联系从而实现为诗歌配图、由图片搜索和生成现代诗和古诗文。 网站采用了一定的MVC分离。PoemSeachES和netModel及model文件夹下的模型为搜索引擎的模型部分,负责对controller发出的查询请求做出响应和进行图像处理。controller.py为我们的控制器,图中由淡蓝色矩形框出的类都有对应的前端页面,深蓝色标出的三个类通过前端的javascript进行动态加载,异步返回数据。static是web.py框架下网站的资源文件夹,其中的js文件夹和css文件夹包含了支持前端布局的js文件和css文件,其余三个文件夹用于缓存用户上传和图像处理中间结果的图片。 ****索引及搜索 我们利用ElasticSearch作为索引和搜索的工具。我们分别为古诗和现代诗建立了索引,包含标题、作者、正文、配图等字段,并对标题和正文采用细粒度分词索引。此外,我们还利用后续获得的作者、新增配图信息等更新索引。 诗歌文本搜索通过布尔查询和分页查询的方法实现。诗图互搜和自动配图通过诗歌的关键词和图的联想词的文本互搜实现。图片联想词通过下文图像特征提取中获得标签后进行近义词扩展得到。诗歌的关键词通过tf-idf算法和TextRank算法抽取。 对于古代诗词,将通过下文的特征语义扩展获得古词热词库和古词-现代词联想库。 图像特征提取 这一步对传入图片进行卷积神经网络运算,得到多分类预测,包括图片的物体、场景和情态特征。 对于图片的object特征,我们使用了\href{http://www.cs.toronto.edu/~frossard/post/vgg16/}{基于ImageNet训练的vgg16结构},直接由最后一个全连接层的softmax输出得到对1000分类的object信息预测。 而对于图片的scene和emotion信息,我们使用了\href{http://places2.csail.mit.edu/PAMI_places.pdf}{基于Places365训练的ResNet18结构}来预测,并通过后期处理得到。 同时,为了增强该cnn网络的可解释性,还钩取了中间层,并与最后softmax层的权重向量点乘,分析得到结果矩阵中的触发峰,然后将该结果矩阵以热力图的方式覆盖,用户就可以看到原图各区域对结果的触发程度。 特征语义扩展 通过上一步骤的cnn我们已经得到了图片的特征信息,但输出的特征最终需要用语言来展示。原数据集(ImageNet和Places365)中的标签均是英文,直接翻译成中文也是现代汉语,无法直接用以搜索或生成古词。 为此,我们利用清代刘文蔚《诗学含英》这一包含古代词语、意象的分类工具书,以及哈工大的《同义词词林》的关于现代汉语的词语分类结构,通过对每个级别分配权重并将词义间关联用编码的向量余弦角表示的方法,可以求得现代汉语之间的词义相似度。由此,我们构造了现代汉语和古词两个森林结构。 为获得古词和现代汉语之间的联系,我们采用回译的方法,讲每个古词先翻译成英文,再翻译回现代汉语,通过词林中选取前k个近义词,这样就有k+1个现代词获得了古词的联系。通过此方法,每个现代词都大约获得10个古词联系。一些例子如下表(古词按关联度排序): 现代汉语 古词 山雀山鸟,啄木,鹭鸥,鹭,鸳鹭,鸥鹭,栖鹭,鹭鹚... 山间小路 云壑,谷,万壑寒,春山,四隅,阡陌,客路长,林霭,幽径... CD播放器 为盘,声频,佛阁,拖荇带,书带,碧筒,兰缸,仙机... 轿车轿厢内 翔车,车盖,车似,车驻,车咸,万车,车前,盈车,野马,凤胎... 清洁的 洁身,轻清,清游,淡净,致洁,似冰清,心与洁,楚楚... 崎岖的 崎岖,峻岭,峭壁,险峻,亘地蟠,浪未平,奔崖,景难... 古诗文生成 训练模型 考虑到诗(尤其是绝句、律诗等)在形式、断句上较为规整,本次实验中只采用诗来训练网络。参考了2014年发表在EMNLP上的论文Chinese Poetry Generation with Recurrent Neural Network,并最终使用了基础的LSTM模型,在TensorFlow模板上进行修改,后接一个softmax输出接下来某字的出现概率。设置2个循环隐藏层,隐藏细胞hidden_units=128。设置学习率为0.001,并使用了TensorFlow中的衰减策略,设learningRateDecayStep = 1000,learningRateDecayRate = 0.95。损失函数设计为预测字符和语料中实际字符的交叉熵。 训练环境:Ubuntu18.04, TensorFlow1.12.0, CUDA9;四路GeForce GTX 1080Ti。总共对30万首诗训练50个epoch,共耗时约三天。 训练结果:Error Function从开始的1.9降至0.1左右。 生成诗歌 由某个关键字开头后,接下来每个字得到的概率向量来自之前的已有全部文段。对概率向量进行直方图统计操作,并按照概率权重随机取字,直至生成结束符,即可生成一首诗。LSTM网络可以直接生成整首诗,但为了让生成诗更加具有用户可控性,控制整体诗歌的氛围特征,我们允许用户自行加入古词关键词在各个句子中引导生成。古诗关键词的加入来自上一部分的词义联想扩展功能。 同时,发现该LSTM网络生成的诗歌在押韵平仄等音韵特征方面不够好,对生成的softmax预测概率加入了音韵惩罚。获取了汉字的拼音数据集,并对于生成诗歌的某些特定部位(如一三五不论、二四六分明的句尾、奇数关节)的汉字与前文的韵母和平仄进行比对,如果不符合正确的押韵及平仄规则,softmax概率乘以一个小于1的惩罚权重。另外,考虑到目前还学不到如“凄凄惨惨戚戚”的程度,生成的叠词往往造成无意义病句,我们也加入了叠词惩罚。 现代诗生成 现代诗的生成我们没有自己训练模型,而是直接参考了来自京都大学和微软亚研院的ACM MM2018的最佳论文(Beyond Narrative Description: Generating Poetry from Images by Multi-Adversa)https://arxiv.org/pdf/1804.08473.pdf,并使用了该论文的开源模型。 部分网页截图 转载自https://github.com/BruceZoom/EECourse-Poem-Project

资源

【毕业设计】在线评测系统设计与实现

在线评测系统设计与实现 一、研究目的 由于现有的在线评测系统大多是在Linux平台上进行部署和运行,对部署人员和维护人员的技术要求过高,需要部署人员和维护人员了解Linux操作系统的基本操作和基本命令,造成了系统部署和维护难度大的问题。Windows操作系统作为最常使用的操作系统,其完美的系统交互是主要原因,设计并开发一个在Windows下稳定运行的在线评测系统就变得尤为重要。本系统选择Windows系统作为运行平台,采用C#编程语言,利用Process对程序的调用功能和Task的后台任务功能完成了对C语言源代码的编译、运行和数据比对功能。 二、研究内容及结果 本系统在评测模块的基础上对系统中用户、权限、题目等基础数据的维护功能进行了开发,完成了对用户、权限、题目等基础数据的基本管理功能。 本系统采用Windows操作系统作为运行平台,基于B/S架构,开发并实现了在Windows系统上部署简单、维护可视化的在线评测系统。 在线测评系统的业务很简单,都是基本的基础数据维护工作,难点主要在后期的维护工作上,因为在线评测系统主要用于大学生的基本编程语言练习,管理人员和维护人员也是在校大学生,其在校时间最长为4年,排除新生一年的学习期,剩下三年时间,如果整个系统的维护工作和升级工作都非常复杂,将会出现问题永远没有人去解决的情况,导致系统的维护工作停滞,如何让整个系统的维护工作和软件升级工作变得简单也就成为了开发在线评测系统的一个难题。 为了应对这个严峻的问题,本系统应该采用大多数编程语言都兼容的通讯方式进行底层开发,保证多语言之间足够好的交互,维护人员可介入的语言选择面更广,每一个模块都互相独立,如果缺乏维护人员进行维护,可直接用熟悉的编程语言进行二模块重新开发,对相应的接口进行实现即可对接现有系统直接运行,系统的升级和维护变得更加高效。 系统实现了最基本的访问控制模型,采用了用户组、角色等概念建立了整个系统的权限管理。增加用户组和角色之后,对权限的控制将更加的灵活、高效,可对单一用户设置权限,也可对用户组的权限进行维护,实现批量的功能。 本次毕业设计工作量相比较高,由于时间问题,所以决定对本系统只搭建开发环境和项目,并且完成题目信息的基本管理,保证基本功能的运行。 三、目录 1 绪论 1.1 研究背景 1.2 目前国内外发展现状 1.3 研究的目的和意义 1.4 可行性分析 2 系统总体分析 2.1 系统概述 2.2 系统分析的原则 2.3 系统需求分析 2.3.1 用户与权限模块的分析 2.3.2 题目与比赛模块的分析 2.3.3 源代码评测模块的分析 3 系统设计 3.1 系统基本结构 3.2 系统体系结构设计 3.3 系统数据库设计 3.3.1 数据库的设计原则 3.3.2 数据库表设计 3.4 系统功能设计 3.4.1 用户注册的设计 3.4.2 用户登录的设计 3.4.3 题目管理的设计 3.4.4 角色管理的设计 3.4.5 菜单管理的设计 3.4.6 权限管理的设计 3.4.7 用户管理的设计 3.4.8 用户组管理的设计 3.4.9 源代码评测模块的设计 4 系统关键技术描述与主要功能模块实现 4.1 开发工具和相关技术简介 4.2 系统主要功能模块的实现 4.2.1 用户注册的实现 4.2.2 用户登录的实现 4.2.3 题目管理的实现 4.2.4 菜单管理的实现 4.2.5 用户管理的实现 4.2.6 源代码评测模块的实现 5 系统测试 5.1 概述 5.2 测试用例设计 结论及尚存在的问题 参考文献 致谢 via:https://github.com/1538741983/graduation_project

资源

【毕业设计】基于机器学习的SQL注入检测系统的研究与实现

研究目的 通过提出的SQL注入检测系统通过对用户输入进行预处理、词法分析、机器学习分析等步骤进行检测,进而执行不同的决策手段并最终输出威胁级别。 研究方法 模型训练 样本收集 攻击样本来自Github上的项目libinjection(https://github.com/client9/libinjection/) 去除特别生僻和重合部分,筛选出约5000条; 正常样本通过Firefox的FoxyProxy代理插件,截取正常网页访问的流量,分析和提取日志文件数据,并去重,筛选出约15000条样本。 样本预处理 1)去噪: 筛除了包含符合GB2312和UTF-8编码中的中文编码标准的样本。 2)递归解码: 对经过编码的用户输入进行递归解码,一直到获得最终应用程序真正接收的payload。 词法分析 对预处理模块输出的payload根据SQL语句的特征进行词法分析,转化成特征数组,再进一步生成用于机器学习的特征向量。 如payload: 1' and select 0x4f714d68 = 0x62624f77 and 'something'='something 经词法分析,生成特征数组: <normal_num> <and(keyword)> <select(keyword)> <16hex> <16hex> <and(keyword)> <normal_word> <normal_word> 再通过类库进一步转化成特征向量。 机器学习 机器学习模块使用python机器学习框架Scikit-Learn,通过对比三种算法模型在运算效率和分类准确率的表现,筛选出系统最终的算法模型。 系统构建 检测模块 检测模块使用模型训练过程最终训练筛选出的模型,检测用户输入。 威胁处理模块 包含威胁分级、邮件告警、记录威胁三个过程。 威胁分级算法参考前人经验总结和自己测试总结的经验,对payload中的关键特征,如编码类型、SQL语句关键字比例、16进制数字个数进行统计,设定阀值,分致命、高危、中危、低危四个级别。 邮件告警使用了python的类库,向管理员发送简单的告警信息。 记录威胁主要是为控制台存储数据。 管理员控制台 控制台可以查看系统检测拦截的威胁流量详情信息,并提供人工判断和重新训练算法的接口。 研究结论 详见文件中MP4文件演示 论文摘要 【摘要】SQL注入攻击是主要的网络攻击技术。目前为止,对SQL注入攻击的主要防御手段存在诸如过度依赖后台、开发周期长、部署难度高等问题。因此,本文提出一种工作在HTTP应用层,不依赖后台,仅需通过分析用户输入就能检测到潜在威胁的SQL注入检测技术。本文提出的SQL注入检测系统通过对用户输入进行预处理、词法分析、机器学习分析等步骤进行检测,进而执行不同的决策手段并最终输出威胁级别。该SQL检测系统的设计特点为:仅需拦截和提取用户输入,无需依赖其他后台信息;通过预处理和词法分析提取payload,并转化特征向量;通过对三种机器学习方法的训练和对比,筛选出表现最佳的机器学习模型。实验表明,相比于其他的SQL注入检测模型,该模型在仅需要采集用户输入的情况下具有较高的准确度和检测效率,能够有效地检测和防御SQL注入攻击。 【关键词】SQL注入;机器学习;朴素贝叶斯;Scikit-Learn 系统使用介绍 1. 在需要部署本SQL注入检测系统的应用服务器上的程序入口添加一个全局API拦截器; 2. 登录检测系统管理后台界面,用户名和密码默认为admin和12345678,修改账号密码,为系统设置管理员账号,配置管理员邮箱,用于后期登录和接收邮件告警; 3. 在API拦截器内抽取用户输入参数,如果参数非空,则调用系统模块的检测接口predict,将参数传入; 4. 当检测结果为威胁,predict将返回true,否则返回false,用户可以对流量做不同的处理策略,如为威胁时返回404页面,非威胁时正常响应; 5. 登录管理员后台,处理拦截的威胁记录,定时进行重新训练算法。 转载自:https://github.com/HongChutang/graduation-design

资源

[课程设计]一个简单的减肥运动app的客户端

slimming_android 一个简单的减肥运动app的客户端,使用 DataBinding 技术. 一个具备集运动记录及查看,饮食热量营养查询,健康记录(心率监测,血压输入记录等),数据图表展示,个人信息维护一体的简易Android客户端 心率识别参考https://github.com/ZhaoYukai/HeartRate 其原理是通过摄像头闪光灯发出来的光,通过闪光灯识别手指的血管,读取摄像头红色素平均值/明暗变化,绘制心率曲线,检测曲线上下脉冲,计算心率值. 若要自己搭建一个服务器环境,请将本项目对应服务端部署好,并修改本项目RequestUtil.java中的BASE_URL为对应服务器地址 课程设计题目要求: 基于安卓的健康减肥软件的设计与开发 现代手机成为人们不可或缺的一部分,而在手机中,安卓手机已经成为年轻人群的主流手机,而年轻人也对减肥瘦身如火如荼,健康减肥也是愈演愈烈。采用安卓平台的健康减肥软件就体现出了很大的优势。采用安卓移动平台,让人们随时随地进行减肥,灵活准确的记录减肥成果,让人们的减肥更加透明化。健康减肥软件主要以运动量的测定和评估为主,加以平衡膳食的健康生活方式为辅助,健康指数查询,给出了健康人的心率、 血压、血糖等的标准指数,让大家作为健康的参考;减肥日记,用来记录每天的走路数, 让人们清晰的知道自己消耗的卡路里;饮食搭配用来合理的搭配食物,给出饮食建议,知道自己将要增加多少卡路里,以免过多的摄入;健康膳食,提供了大量早中晚的食物 以及这些食物的热量,摄入多少等信息;运动循迹是利用GPS定位来标注你的位置和所走路线的,计算消耗的卡路里,这样让使用者更能了解自己运动的状态和位置。 简化后要求: 灵活准确的记录减肥成果 健康减肥软件主要以运动量的测定和评估为主 减肥日记,用来记录每天的走路数,消耗的卡路里 给出了健康人的心率、血压、血糖等的标准指数 运动循迹是利用GPS定位来标注你的位置和所走路线的,计算消耗的卡路里 加以平衡膳食的健康生活方式为辅助,健康指数查询 饮食搭配用来合理的搭配食物,给出饮食建议,知道自己将要增加多少卡路里,以免过多的摄入 提供了大量早中晚的食物以及这些食物的热量,摄入多少出现的问题等信息 作者介绍 作者 主页 Email 严唯嘉 风旋碧浪@严唯嘉 happyboyywj#163.com 乐汉 uuppoo321 Dev & IDE : 开发工具 Android 端 MVP:Model View Presentation, DataBinding技术 名称 介绍 网址 Android Studio 3.0 Beta7 安卓开发工具 AndroidStudio 网易mumu 安卓模拟器 网易mumu nox夜神 安卓模拟器 夜神安卓模拟器 Web 端 SSM框架:Spring+SpringMVC+Mybatis+mysql 名称 介绍 网址 IDEA java开发IDE IDEA官网 spring&springMVC 网页开发框架 spring maven java依赖管理 IDEA自带 tomcat 9.0 java web 容器 tomcat postman http测试工具,Chrome App,看下方截图 在chrome里面下载 其他工具 名称 介绍 网址 leangoo 看板,敏捷开发,拆分任务,每日移动已完成任务 Leangoo Gradle Dependence 名称 链接 备注 底部tab LuseenBottomNavigation 安卓Util库 blankj:AndroidUtilCode 参见 AndroidUtilCode_CN.md jackson 圆形ImageView CircleImageView 平滑加载图片的类库 Glide 高德地图定位&地图api amap高德地图api Android 自定义图表库 MPAndroidChart Code: Ref:项目用到的技术/参考文档 DataBinding 技术 DataBinding快速入门 DataBinding-是时候放弃butterknife了 Android MVVM框架 - Data Binding Library介绍 DataBinding 中 BindingConversion 的使用 Android dataBinding与ListView及事件详解 databinding中的ImageView与Glide结合使用 Fragment介绍 Android Fragment 真正的完全解析(上) Fragment详解之六——如何监听fragment中的回退事件与怎样保存fragment状态 BottomNavBar LuseenBottomNavigation - Github SwipeRefreshLayout SwipeRefreshLayout详解和自定义上拉加载更多 资源 IconFont 阿里巴巴矢量图标库 地图定位 高德地图定位SDK 异常处理参考文档 亚行安装失败与INSTALL_FAILED_TEST_ONLY - 堆栈溢出 AndroidStudio完美解决"Activity使用Handler时出现警告信息"的问题 【已解决】Android Studio中的gradle无法引用HttpClient库 jackson下划线和驼峰命名法自动忽略 Android------startActivityForResult的详细用法 安卓系统:尝试重新打开已关闭的对象 Android实现圆形Imageview,带白色边框 堆栈溢出 - 警告:安卓自定义视图应扩展应用组合功能视图 Android 要求重音符:获得资源号值时没有包标识符0x00000003 笔记12--GridView--且解决与ScrollView共用的冲突问题 ImageView 简单加载网络图片实例代码 Android 背景渐变色(shape,gradient) Android 开发学习之路 - Android6.0运行时权限 Jackson 将 json 字符串转换成泛型List Android 分享 - 调用系统自带分享功能 android 调用系统图库查看指定路径的图片 屏幕截图: 截图演示: 转载自https://github.com/yanweijia/slimming_android

资源

【毕业设计】面向金融领域的实体关系抽取系统设计与实现

面向金融领域的实体关系抽取系统设计与实现 一、研究目的 关系抽取是信息抽取中的关键技术之一。面向金融领域的实体关系抽取是在实体识别的基础上,进一步提炼出实体间的关系,建立实体间的联系,服务于金融行业。 二、研究方法 本系统主要针对机构与机构、人与机构之间进行实体关系抽取。关系抽取问题可以转化为分类问题,关系抽取就是在已经定义好的关系列别上,确定当前实体对之间关系的所属类别。 本系统利用有监督的机器学习方法,在人工标注的语料库上使用多种分类算法进行训练。在训练过程中,使用交叉验证的手段来确定各个分类算法的最佳参数,并根据交叉验证的结果选择最佳的分类算法,训练出最佳模型并保存。最后利用已经训练好的模型进行实体关系抽取。 三、研究结论 本系统将关系抽取应用到金融领域,通过对系统的设计与研发,得到以下研究成果和结论。 介绍了项目的研发背景,阐明了关系抽取在金融领域的作用,分析了关系抽取的国内外研究现状。关系抽取是金融领域知识图谱构建的基本手段之一。 定义了金融领域机构与机构间,人与机构间的关系类别。使用有监督的机器学习的方法进行面向金融领域的实体关系抽取,并分析了其实质是进行文本分类。 采用多种分类算法来进行关系抽取,使用交叉验证的手段来调整模型参数,并通过综合比较各分类算法的性能来选出最佳的分类算法和分类模型。 详细叙述了从模型训练到关系抽取的整个流程,证明了SVM在文本分类中的良好性能。 四、目录 摘 要 Abstract 目 录 第1章 绪论 1.1 课题背景及意义 1.2 国内外研究现状 1.3 本文主要工作内容 第2章 需求分析 2.1 金融领域实体关系定义 2.2 系统需求 2.2.1 系统功能性需求 2.2.2 系统非功能性需求 2.3 本章小结 第3章 系统设计 3.1 系统总体设计方案 3.1.1 软件体系结构 3.1.2 系统功能结构图 3.1.3 系统实现流程 3.2 系统存储数据结构设计 3.3 本章小结 第4章 系统实现 4.1 模型训练 4.1.1 网络爬虫数据采集 4.1.2 人工标注语料库 4.1.3 结巴分词 4.1.4 模型参数调优 4.2 关系抽取 4.3 本章小结 第5章 系统测试与性能分析 5.1 关系类别测试 5.2 系统性能分析 5.3 本章小结 结 论 参考文献 原创性声明 致谢 来源https://github.com/yyHaker/NamedEntityRecognition

资源

【毕业设计】基于Android Studio 平台的测量程序设计与实现

基于Android Studio 平台的测量程序设计与实现 一、简介 本程序基于Android Studio平台,采用Java编程语言进行开发,主要用于测量数据的处理。 程序包括附合导线近似平差计算、附合水准路线近似平差计算、坐标转换、大地主题正反算、 线路曲线要素计算等五个基础测量数据计算内容以及包括度分秒转换,方位角计算,坐标正 反算等测量数据处理工具。 二、程序说明 用户点击图标进入应用,右侧菜单是测量工具箱,可以点击图标 进入或者右划拉出,主页面是五个测量程序的入口,点击对应的测量程序按钮进入相应的界 面,每一个测量程序均可以实现数据的输入、检查、计算、输出等功能。(程序中角度显示方式是度.分秒,如 30°45′15.2″显示为30.45152) 1.主界面 2.测量工具箱 3.五个测量程序 1.附和导线近似平差计算 用户在进入程序后需要输入已知起算数据,包括已知点坐标和已知边方位角。若已知数据是四个坐标, 可以先用测量工具箱计算出方位角,再进行输入。之后对测量数据进行记录,包括测站,观测角,边长。 程序默认第一站不测量边长。输入完成后,点击下一站即可把数据存储入数据库中,注意只有下拉列表 出现数据,才表示数据存储成功,可以参与计算。如果输入错误可以点击重新测量。 最后点击平差即可以生成计算报告,包括角度闭合差,坐标增量闭合差在内的限差信息,还有测站数, 导线全长信息以及各点坐标和改正后的角度信息。角度计算精度为0.1”,坐标计算精度为0.001m。 2.水准路线计算 程序能实现二等和四等水准路线的测站检核和近似平差计算。 用户在进入程序后选择水准测量的等级,输入已知起算数据,包括起点高程和终点高程。 点击进行计算,之后可以对测站数据进行记录,包括测站名,尺常数,读数等。输入完 成后,点击“计算”即可查看本站的数据检核,如果出现红色表示该数据超限,用户可 以点击“重测”重新进行测量。若无超限数据,可以点击“迁至下一站”进行下一站的 测量,本站数据会存储到数据库。 测量完成后,点击“平差”即可以生成计算报告,包括水准路线的基本信息,限差信息, 还有各测站的距离,高差,改正数,以及各点平差后的高程。 3.大地主题解算 大地主题正算:已知椭球面上某一已知点的大地坐标(L1,B1)以及该已知点至 未知点的大地线长(S12)和大地方位角(A12),求未知点大地坐标(L2,B2)和 大地方位角(A21) 大地主题反算:已知椭球面上两已知点的大地坐标(L1,B1,L2,B2),求该两 点间的大地线长(S12)和正反大地方位角(A12,A21) 程序能实现大地主题正反算的计算。角度显示方式是度.分秒,计算精度精度为0.001”,距离计算精度 在0.15m以内,可以实现高精度的计算。 4.坐标转换 程序能实现测量时常用的单点坐标转换。 由大地坐标计算大地空间直角坐标:已知某点的大地坐标(L,B,H),求该点相应的大地空间直角坐标(X,Y,Z) 由大地空间直角坐标计算大地坐标:已知某点的大地空间直角坐标(X,Y,Z),求该点相应的大地坐标(L,B,H) 高斯投影正算:已知椭球面上某点的大地坐标(L,B),求该点相应的高斯平面直角坐标(x,y) 高斯投影反算:已知平面上某点的高斯平面直角坐标(x,y),求该点相应的椭球面上的大地坐标 程序角度计算精度精度为0.01”,距离计算精度在0.001m,可以实现高精度的转换。 5.线路曲线计算 程序能计算基本道路曲线的曲线要素和中桩及边桩的测设数据。 通过缓和曲线长控制曲线类型,当Ls1 = Ls2 = 0时,为圆曲线,当Ls1 = Ls2 = Ls时,是对称的缓和曲线, 当Ls1 != Ls2时,为不对称的缓和曲线。通过前缓直里程和交点里程控制直线段的长度。最后能实现各种 道路曲线类型的计算。计算结果可以复制粘贴,方便数据的导出。 via:https://github.com/xiaoshi-hd/measure_app

资源

【毕业设计】基于多源海洋数据的信息平台开发与应用研究

基于多源海洋数据的信息平台开发与应用研究 一、研究目的 “数字海洋”的诞生是源于“数字地球”的建设,二者都是为了将地球上所有探测到的数据以数据库的形式存储,并共享给全球社会,集全球的科研精力及资源,挖掘有助于人类可持续发展的有用信息,助力社会发展,而作为一个海洋面积约占71%的星球,“数字海洋”也必然成为了这一庞大建设的最主要部分。 基于海洋数据的信息平台的建设,可以将丰富海量的海洋数据信息,直观便捷的展示给公众,按照不同的海洋数据分类以基于互联网网站的形式,相较于无分类的海量的数据集文件,网站可以让用户根据自己的使用需求选择来自不同海域的数据集以及在线下载,以用来将来进一步的分析与研究。友好的界面交互与UI设计有助于激发公众对于海洋知识的热爱,有助于海洋知识的基础科普,在展示过程中采用数据集表格的形式,用户可以看到自己所选择数据集的所有数据,包括数据格式,数据上传时间,更新频率等相关字段,保证了公众获取数据的及时性与可用性。 基于海洋数据的信息平台的建设,完成了从庞大数据库到可视化信息查看的转变,用户不需要经过相关的专业训练,只需要基本的操作就可以查看并下载海洋生物、海洋化学、海洋水文等信息。从政府角度来看,相关研究机构只需将自己机构的研究数据与结果上传至海洋数据信息平台,政府相关部门便可以根据当前决策需要,搜索需要的海洋数据,结合数据进行科学决策,去除了政府相关部门与研究机构的沟通隔阂,降低了信息共享得决策成本,推动决策高效决定于执行,因为对于海洋领域来说,政策相对于的影响发挥着巨大的作用,也从另一个方面帮助政府更好地协助企业发展,为沿海企业经济发展提供良好的政治环境与政策引导。政商通力合作,共同推动沿海经济发展。对于沿海渔业来说,每年的沿海休禁渔制度涉及区域广泛,政府通告发布也可以通过该平台进行传播,降低文件沟通成本,合理利用互联网平台进行咨询动态传播,公众也可以通过平台获取最新的海洋相关信息,掌握出海海风、风力等安全信息,保证渔民的财产与人身安全。 如今全球各大主要的海事机构,例如日本海洋数据中心、英国海洋数据中心(BODC)、世界海岛数据库(ISLANDS)、国际海洋数据和信息交换平台(IODE)都在海洋信息收集与共享方面做出了巨大共享,本项目的完成,有助于探索符合我国国情的多源海洋数据的信息平台,通过不同的展示形式,及数据库存储方式,摸索出最合适的信息平台,服务于国家的海洋强国战略。 二、研究内容 本论文的研究主题在与设计并开发符合中国国情与实际的基于多源海洋数据的信息平台,文章对开发平台需要的相关技术理论及浏览器关键技术进行了深入介绍,讨论决定选取何种技术,技术优势所在,并在其后对使用当前技术所面临的开发难点进行了深入讨论,包括使用Flask-SQLALchemy实现数据库对象关系映射,部署服务器至云端,数据文件批量查询分析操作,以期用最合适的技术尽可能优化地实现所设计的功能。其次,本论文结合不同海洋数据库的数据特征,数据处理与分析格式,从关系型数据库和非关系型数据库选择了MySQL数据库作为平台的数据库,既保证了对前台数据展示与搜索的良好支持性,又满足存储海量海洋数据的需求。 本论文以世界上各大海洋机构相关的海洋数据共享平台为考量对象,衡量中国海洋海量数据集内容与数据格式,瞄准国内国际重大海洋数据共享计划,以数据整合共享为目标,以开发为重点工作,最终产出基于多源海洋数据的信息共享平台,服务于社会等研究机构的应用研究包括但不限于海洋渔业、防灾减灾、旅游、航海等方面;协助企业安全高效运营,包括管理海洋风险预警、数据信息化;为政府领导科学决策,海洋管理执法维权提供科学指引。 三、研究结果 本文从研究国内外海洋数据信息平台着手,对目前海洋数据信息平台的需求进行了梳理与阐述,为了开发出更符合中国海洋数据现状的海洋数据信息平台,在确定了用户需求的基础上,又明确了平台的总体设计,将这个平台的开发分解、细化,从技术与功能角度分别阐述了平台的开发可行性、各个模块的具体实现方式,也对平台的重要部分进行了分别测试,最后给出了基于多源海洋数据信息平台的全面设计与实现。 平台采用B/S架构进行开发设计,使用Python-flask框架作为平台的开发框架,不仅可以在有限的时间内,尽可能最优化的完成所设计的功能,同时也极大地增强了平台的稳定性,易用性以及可维护性。平台数据集包含海洋生物数据集、海洋化学数据集、海洋水文数据集,以大类区分的方式将数据有组织的展示给用户,用户也可以根据自己的数据需求进行搜索,一旦确定需要数据文件,便可以快速点击下载。资讯动态功能为用户获取海洋资讯、国家政策、相关研究提供了极大地便利,用户可以查看不同的分类文章,也可以通过文章标题的关键字模糊搜索寻找自己感兴趣的文章进行阅读。 四、目录 第1章 绪论 1.1 研究背景 1.2 研究的目的与意义 1.3 国内外研究现状 1.4 研究内容 第2章 平台相关技术研究 2.1 Bootstrap前端框架 2.2 Web服务器网关接口 2.3 B/S架构模型 2.3.1 B/S架构模型与C/S架构模型的介绍与比较 2.3.2 B/S结构的特点和优势 2.4 MySQL数据库 2.4.1 MySQL数据库介绍 2.4.2 MySQL数据库所需关键知识 2.5 Python-flask web框架及关键模块 2.5.1 Python-flask框架介绍 2.5.2 Flask-Uploads模块 2.5.3 Flask-SQLAlchemy扩展 第3章 需求分析及可行性分析 3.1 平台需求分析 3.2 平台需求概述 3.2.1 业务功能需求 3.2.2 平台性能需求 ⑴ 响应时间指标 ⑵ 平台容量性能指标 3.3 平台用例分析 3.3.1 海洋数据查看与下载 3.4 平台可行性分析 3.4.1 技术可行性 3.4.2 经济可行性 第4章 平台总体设计 4.1 平台架构设计 4.2 平台的框架设计 4.3 平台的模块设计 4.4 平台数据库设计 4.4.1 实体描述 4.4.2 数据库迁移 4.4.3 数据库表格设计 第5章 基于多源海洋数据信息平台的实现 5.1 项目前期工作 5.1.1 安装组件 5.1.2 数据库创建与迁移 5.2 平台主要功能模块的实现 5.2.1 平台首页的实现 5.2.2 平台登录模块的实现 5.2.3 平台注册模块的实现 5.2.4 平台资讯动态模块的实现 5.2.5 平台数据服务模块的实现 第6章 基于多源海洋数据信息平台的测试 6.1 平台功能测试 6.1.1 链接测试 6.1.2 表单测试 6.2 浏览器测试 第7章 总结和展望 参考文献 via:https://github.com/dashengwzy/python_flask

资源

基于MVVM+View 2D、3D的模板应用

项目由来 一款通用的PC端模板,包括医疗系统,工业控件,教育,会涉及到比较多的2D,3D图像,可能会涉及到算法,便于以后快速开发,之前也写过一些自定义控件和视图,现在正好用到这个项目模板中。 项目介绍 WPFCoreUniversalApp是从零开始,基于. NetCore31,采用MVVM模式,目前连接的是Mysql数据库,准备分为两大块:医疗(Medical),工业(Factory),其中包含UserControl,CustomControl,Animation,2D,ViewPor3D,日志记录,Excel文档交互,二维码控件,手写的ORM,IOC,权限认证和管理等等。 另外有一些常用的控件桌面自定义控件(基于.Net Core3.1),比如二维码控件(配置即可生成想要的任意二维码),MessageDialog(弹窗提示View)等。 UI布局------------------------------√ 窗口开启和关闭动画(2D和3D)-----√ 用户注册和修改---------------------√ 在我身上--------------------------------√ 国际奥委会----------------------------------√ 数据加密(MD5、DES)----------------√ MedicalReport界面布局--------------------√ 用户身份校验-----------------------× 权限分配和管理----------------------× 日志文件-----------------------------× Excel文档交互------------------------√ 图形(折线、曲线、饼图、柱状图等)----------√ 软件自动更新------------------------√ 登陆效果图(2D/3D): 登陆界面切换3D动画核心代码如下: 医疗报告系统效果图(布局完成,功能模块一部分) 查看、登记、编辑、刷新、删除-----------------√ Excel模板、 导入、导出(Excel、Word)--------------------------√ 诊断-------------------------------------------------√ 数据转PDF,XML,Json-----------------------------× 转为图形统计(2D、3D)-----------------------------√ 诊断可实现图片轮播浏览,还可以查看360度全景详细图片 3D图像平面切割效果(可任意角度去切割三维图形) 以下示范立方体的,原理如下:假设平面内有一定点P(0)(该点也在三维图形空间内),过定点P0的法向量为P(n),设该平面的任意一点坐标为P(x,y,z),则通过法向量垂直平面即可求出平面方程,若P(0)=(0,0,0),则切平面方程为: P(n). Xx + P(n). Yy + P(n). Zz = 0,若P(0)非原点,可通过在y轴上平移得到切平面方程式,即必存在一个常量N满足P(n). Xx + P(n). Yy + P(n). Zz + N = 0(即为切平面方程通用公式)。 设切平面与XY轴面的夹角α[0,π],切平面旋转的角度β[0,2π],最后我推导得到切平面通用用方程表达式如下(先计算过原点的,之后可通过平移得到): 图表控件(图像理论上可绘制达1000万个点) 最后 由于这样做会出现开发太慢而且很累的问题(需要写动画效果,控件逻辑等),所以可以通过引入了第三方控件开解决这个问题,具体看管理包。 另外我把3D球体和圆柱体的推导方法放在了~/DesktopUniversalFrame/Entity/ArithmeticInfer下面,感兴趣的可以看看,其它像正方体、长方体的建模就比较简单了,不会的可以自己查资料,微软官方文档也有说明,弄清楚原理再去画3D就非常简单了,借助第三方控件就更容易点,后面有时间的话把动画在Xaml和后台的写法单独弄一块,学会这些就可以做出很炫丽的可视化界面了。 转载自https://github.com/chancezheng/WPFCoreUniversalApp

资源

中文文本分类实践(Text Classification)

Text Classification 文本分类(Text Classification)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,比如垃圾邮件识别、舆情分析、情感识别、新闻自动分类、智能客服机器人的知识库分类等等。本文分为两个部分: Part 1: 基于scikit-learn机器学习Python库,对比几个传统机器学习方法的文本分类。 Part 2: 基于预训练词向量模型,使用Keras工具进行文本分类。 Text Classification Part 1: 基于scikit-learn机器学习的文本分类方法 语料预处理 生成训练集和测试集 生成数据集 文本特征提取:TF-IDF 构建分类器 Benchmark: 朴素贝叶斯分类器 对新文本应用分类 分类器的评估 构建Logistic Regression分类器 构建SVM分类器 Part 2: 基于预训练模型的CNN文本分类方法-Keras 读取语料 加载预训练词向量模型 使用Keras对语料进行处理 定义词嵌入矩阵 Embedding Layer 构建模型 参考资料 Part 1: 基于scikit-learn机器学习的文本分类方法 基于scikit-learn机器学习的中文文本分类主要分为以下步骤: 语料预处理 生成训练集和测试集 文本特征提取:TF-IDF 构建分类器 分类器的评估 1.语料预处理 定义搜狗新闻文本标签的名称,类似C000008这样的标签是语料的子目录,在网上搜到标签对应的新闻类别,为了便于理解,定义了这个映射词典,并保留原有编号信息。在网上搜索下载搜狗分类新闻.20061127.zip语料并解压至CN_Corpus目录下,解压之后目录结构为: 下面进行语料的切分,将每个类别的前80%作为训练语料,后20%作为测试语料。切分完之后的语料目录如下: 2. 生成训练集和测试集 生成数据集 从上面切分好的语料目录中读取文本并进行分词预处理,输出:训练语料数据(X_train_data)、训练语料标签(y_train)、测试语料数据(X_test_data)、测试语料标签(y_test)。 X_train_data, y_train, X_test_data, y_test = load_datasets() 数据集的形式如下: X_train_data[1000] y_train[1000] '_08_Finance' 3. 文本特征提取:TF-IDF 这个步骤将文档信息,也即每篇新闻被分好词之后的词集合,转为基于词频-文档词频(TF-IDF)的向量,向量的每个元素都是对应于某个词在这个文档中的TF-IDF值,在不同文档中,同一词的TF-IDF是不一样的。所有文档的TF-IDF向量堆放在一起就组成了一个TF-IDF矩阵。注意到这里应该包含了除停用词之外的所有词的TF-IDF值,词的个数构成了向量的维度。 用TfidfVectorizer将文档集合转为TF-IDF矩阵。注意到前面将文本做了分词并用空格隔开。如果是英文,本身就是空格隔开的,而英文的分词(Tokenizing)是包含在特征提取器中的,不需要分词这一步骤。下面在得到了分类器之后,使用新文本进行分类预测时,也是需要先做一下中文分词的。 X_train_tfidf.shape (13500, 223094) len(words) 223094 4. 构建分类器 Benchmark: 朴素贝叶斯分类器 得到了训练样本的文本特征,现在可以训练出一个分类器,以用来对新的新闻文本进行分类。scikit-learn中提供了多种分类器,其中朴素贝叶斯是一个很好的基准,有多个版本的朴素贝叶斯分类器,其中MultinomialNB比较适合于文本分类。 对新文本应用分类 对新的文本需要进行分类,那么只需将上面的tfidf_vectorizer应用在新的文本上,调用transform方法而不是fit_transform,将新的文本转换为TF-IDF特征,然后再调用分类器的predict,得到分类。 下面新闻节选自腾讯新闻网: 周鸿祎金融梦,营收20亿元直逼趣店,净利润同比增340% 录取率低过5%的美国名校,为何“花钱”就能上? 特朗普:伊朗对美军动武将会“灭亡” 5. 分类器的评估 有了分类器,以及知道了如何用分类器来对新的文本进行分类预测,那么可以用前面划分出来的测试集对这个分类器进行性能评估。得到了84.35%的准确率,作为Benchmark,这个结果还不错。调用classification_report可以得到更详细的结果: print(classification_report(y_test,predicted)) 再看一下混淆矩阵: confusion_matrix(y_test, predicted) 构建Logistic Regression分类器 再试一下其他的分类器,比如Logistic Regression,训练新的分类器: 最后测试结果还行,比Benchmark分类器好了不少。 构建SVM分类器 在传统机器学习中,SVM是做文本分类最好的工具。同样做一下跟上面LR一样的对比: 准确率不低: 传统机器学习方法这样的结果非常不错了,而且实现方式非常简单实用。 Part 2: 基于预训练模型的CNN文本分类方法-Keras 文本分类主要分为以下步骤: 读取语料 加载中文预训练词向量模型 使用Keras进行数据预处理,生成训练集和测试集 定义词嵌入矩阵 构建模型 1. 读取语料 这里读取原始语料,划分训练集和测试集,放在了后面预处理部分。 texts, labels = load_raw_datasets() 下表是转换后的标签表示: 序号 标签 名称 分类编码 0 C000008 Finance [1, 0, 0, 0, 0, 0, 0, 0, 0] 1 C000010 IT [0, 1, 0, 0, 0, 0, 0, 0, 0] 2 C000013 Health [0, 0, 1, 0, 0, 0, 0, 0, 0] 3 C000014 Sports [0, 0, 0, 1, 0, 0, 0, 0, 0] 4 C000016 Travel [0, 0, 0, 0, 1, 0, 0, 0, 0] 5 C000020 Education [0, 0, 0, 0, 0, 1, 0, 0, 0] 6 C000022 Recruit [0, 0, 0, 0, 0, 0, 1, 0, 0] 7 C000023 Culture [0, 0, 0, 0, 0, 0, 0, 1, 0] 8 C000024 Military [0, 0, 0, 0, 0, 0, 0, 0, 1] 2. 加载预训练词向量模型 解压之后的中文预训练词向量模型的文件格式是文本文件,首行只有两个空格隔开的数字:词的个数和词向量的维度,从第二行开始格式为:词 数字1 数字2 …… 数字300,形式如下: 364180 300 embeddings_index = load_pre_trained() Found 364180 word vectors, dimension 300 3. 使用Keras对语料进行处理 代码中word_index表示发现的所有词,得到的文本序列取的是word_index中前面20000个词对应的索引,文本序列集合中的所有词的索引号都在20000之前: 我们可以通过生成的词索引序列和对应的索引词典查看原始文本和对应的标签: category_labels[dict_swaped(labels_index)[argmax(labels_categorical[0])]] '_20_Education' 4. 定义词嵌入矩阵 下面创建一个词嵌入矩阵,用来作为上述文本集合词典(只取序号在前MAX_WORDS_NUM的词,对应了比较常见的词)的词嵌入矩阵,矩阵维度(MAX_WORDS_NUM, EMBEDDING_DIM)。矩阵的每一行i代表词典word_index中第i个词的词向量。这个词嵌入矩阵是预训练词向量的一个子集。我们的新闻语料中很可能有的词不在预训练词向量中,这样的词在这个词向量矩阵中对应的向量元素都设为零。还记得上面用pad_sequence补充的0元素么,它对应在词嵌入矩阵的向量也都是零。在本例中,20000个词有92.35%在预训练词向量中。 Embedding Layer 嵌入层的输入数据sequence向量的整数是文本中词的编码,前面看到这个获取序列编码的步骤使用了Keras的Tokenizer API来实现,如果不使用预训练词向量模型,嵌入层是用随机权重进行初始化,在训练中将学习到训练集中的所有词的权重,也就是词向量。在定义Embedding层,需要至少3个输入数据: input_dim:文本词典的大小,本例中就是MAX_WORDS_NUM + 1; output_dim:词嵌入空间的维度,就是词向量的长度,本例中对应EMBEDDING_DIM; input_length:这是输入序列的长度,本例中对应MAX_SEQUENCE_LEN。 本文中还多了两个输入参数weights=[embedding_matrix]和trainable=False,前者设置该层的嵌入矩阵为上面定义好的词嵌入矩阵,即不适用随机初始化的权重,后者设置为本层参数不可训练,即不会随着后面模型的训练而更改。这里涉及了Embedding层的几种使用方式: 从头开始训练出一个词向量,保存之后可以用在其他的训练任务中; 嵌入层作为深度学习的第一个隐藏层,本身就是深度学习模型训练的一部分; 加载预训练词向量模型,这是一种迁移学习,本文就是这样的示例。 5. 构建模型 Keras支持两种类型的模型结构: Sequential类,顺序模型,这个仅用于层的线性堆叠,最常见的网络架构 Functional API,函数式API,用于层组成的有向无环图,可以构建任意形式的架构 为了有个对比,先不加载预训练模型,让模型自己训练词权重向量。Flatten层用来将输入“压平”,即把多维的输入一维化,这是嵌入层的输出转入全连接层(Dense)的必需的过渡。 每个Keras层都提供了获取或设置本层权重参数的方法: layer.get_weights():返回层的权重(numpy array) layer.set_weights(weights):从numpy array中将权重加载到该层中,要求numpy array的形状与layer.get_weights()的形状相同 get_weights方法得到的就是词嵌入矩阵,如果本例中取的词典足够大,这样的词嵌入矩阵就可以保存下来,作为其他任务的预训练模型使用。通过get_config()可以获取每一层的配置信息: model1.layers[0].get_config() 可以将模型训练的结果打印出来 plot_history(history1) 第一个模型训练时间花了大约30分钟训练完30个epoch,这是因为模型需要训练嵌入层的参数,下面第二个模型在第一个模型基础上加载词嵌入矩阵,并将词嵌入矩阵设为不可训练,看是否可以提高训练的效率。 从第二个模型训练结果可以看到预训练模型的加载可以大幅提高模型训练的效率,模型的验证准确度也提升的比较快,但是同时发现在训练集上出现了过拟合的情况。 第三个模型的结构: plot_history(history3) 通过加入池化层MaxPooling1D,降低了过拟合的情况。验证集上的准备度超过了前两个模型,也超过了传统机器学习方法。 转载自https://github.com/lijqhs/text-classification-cn

  • 1
  • 11
  • 12
  • 13
  • 20
前往