资源 【毕业设计】基于AdaBoost算法的情感分析研究
基于AdaBoost算法的情感分析研究 一、研究目的 通过对带有情感色彩的主观性文本进行分析、处理、归纳然后进行推理。通过情感分析可以获取网民的此时的心情,对某个事件或事物的看法,可以挖掘其潜在的商业价值,还能对社会的稳定做出一定的贡献。 二、研究方法 (1)使用微博官方的API对微博进行抓取,进行分类标注。 (2)对微博文本进行预处理,主要包括去掉无意义,对微博文本没有影响的词语。 (3)使用SVM算法对文本进行初步的筛选,主要是去除特别明显的广告等无关性的微博。 (4)使用朴素贝叶斯对微博进行情感分析,将微博分为积极、消极、客观三类,同时使用AdaBoost算法对朴素贝叶斯算法进行加强。 三、研究结论 主要实现: 对微博的降噪清理、对无关性的微博本文进行过滤、使用了朴素贝叶斯对微博进行情感分类、使用AdaBoost算法对朴素贝叶斯进行加强。 可改进: (1)在情感分析的前提下,能够对某些微博中的评论来分析用户的情感倾向性,比如某些热点事件,分析大部分网民对热点事件的喜怒哀乐。同时,也可以根据该热点事件中牵涉到的时间、地点、人物等,对其深入的挖掘,甚至是做出预测性分析。 (2)可更改情感分类的策略,以更精确的分析用户的语言现象,比如分析用户的程度副词如“非常”、“超级”等,结合文本中的标点符号和重复的词语,进行综合的整体建模。 (3)除了针对某些热点事件之外,还可获取个人所有的微博进行分析。从一个人的所有微博中可以获取其情感方向的估计,比如对某件事件的喜欢或者厌恶,对某些品牌的热衷与唾弃等。 四、目录 前 言 第一章 概述 1.1 研究背景和现状 1.2 情感分析的概念 1.3 本文的内容安排 第二章 微博的获取与清理 2.1 概述 2.2 微博的反爬虫机制 2.2.1 通过Headers反爬虫 2.2.2 基于用户行为的爬虫 2.2.3 动态页面的反爬虫 2.2.4 微博的反爬虫 2.3 微博的获取 2.3.1 微博API的获取 2.3.2 模拟登录 2.3.3 微博抓取与存储 2.4 微博的分词与降噪 2.4.1 概念 2.4.2 分词 2.4.3 删除URL 2.4.4 删除用户名 2.4.5 去除停用词 2.5 本章小结 第三章 SVM初步分类 3.1 概念 3.1.1 线性分类 3.2 SVC 3.2.1 线性支持向量分类机 3.2.2 算法描述 3.3 实验 3.3.1 选取特征 3.3.2 降噪 3.3.3 特征降维 3.3.4 将文本样本变成特征显示 3.3.5 将文本随机分成训练集、测试集 3.3.6 进行训练和预测 3.4 本章小结 第四章 利用贝叶斯定理进行情感分析 4.1 引言 4.2 贝叶斯定理 4.2.1 高斯朴素贝叶斯 4.2.2 伯努利贝叶斯 4.2.3 多项式朴素贝叶斯定理 4.3 本文中的多项式朴素贝叶斯 4.3.1 算法过程 4.3.2 拉普拉斯平滑 4.4 实验 4.4.1 分词 4.4.2 特征提取 4.4.3 向量化 4.4.4 朴素贝叶斯分类 4.4.5 测试 4.4.6 计算准确率 4.5 本章小结 第五章 利用AdaBoost加强分类器 5.1 集成学习 5.1.1 发展历史 5.1.2 Bagging方法 5.1.3 Boosting方法 5.2 ADABOOST 5.2.1 概念 5.2.2 举例 5.2.3 算法描述 5.3 ADABOOST提升朴素贝叶斯文本分类 5.4 多类问题 5.4.1 AdaBoost.M1算法 5.4.2 AdaBoost.SAMME 5.4.3 AdaBoost.SAMME.R 5.5 实验 5.5.1 二分类 5.5.2 多分类 5.6 本章小结 第六章 总结与展望 6.1 本文主要内容总结 6.2 存在问题及未来研究展望 参考文献 致 谢 来源:https://github.com/Zephery/weiboanalysis