本科毕业设计求思路！

0 1001

“C++语言通过大括号和不同层次的缩进来标记语句块。其中，缩进尽管并不是语法的一部分，但编程规范中一般都会对缩进的使用提出要求。本课题要求对GitHub开源社区中C++项目语句块的使用风格进行实证研究。通过编写脚本批量收集C++项目代码，分析不同的语句快大括号的使用风格，以及不同层次语句块的缩进风格（包括使用空格还是制表符、缩进空格数、缩进风格是否统一、等等）。最终形成实证研究报告。” 可以学python解决代码爬取的问题，可是怎么分析呢？这个人喜欢一个tab，那个人喜欢两个tab？这也分析不出什么东西来啊？跟别说还要写论文了，急求帮助！

2022-02-27 12:49 更新

坚强的匕首 • 5

共 1 个回答

高赞时间

先说爬取的问题,github本身开放了很多api,可能包含按标签搜索(但是不确定有没有你需要的项),所以可以先不用费功夫写爬虫爬取了,光明正大地调接口就好(需要的功能是在没开放接口再考虑爬虫).然后获取代码只需要调用 git 命令行就好. 这两个功能用 Python 做起来都挺方便. 然后说分析,我理解就是做一些统计.和 star 数, 协作的人数, 项目活跃程度(提交次数,每次提交修改的行数,最后一次修改距今时间之类)做个关联. 用线性回归之类回归方法画个图就 ok 了. 预计你会积累出 http 接口调用, git 深入使用, 大规模文本处理等项目经验, 如果抓取和统计结果你用了关系数据库做存储的话, 你还能学会关系数据库(如mysql)的使用. 如果用scikit-learn做回归分析的话,你还能积累出一些机器学习的经验. 总的来说,是个简单又实际的题目.

2022-02-27 22:24 更新