1
先说爬取的问题,github本身开放了很多api,可能包含按标签搜索(但是不确定有没有你需要的项),所以可以先不用费功夫写爬虫爬取了,光明正大地调接口就好(需要的功能是在没开放接口再考虑爬虫).然后获取代码只需要调用 git 命令行就好. 这两个功能用 Python 做起来都挺方便. 然后说分析,我理解就是做一些统计.和 star 数, 协作的人数, 项目活跃程度(提交次数,每次提交修改的行数,最后一次修改距今时间之类)做个关联. 用线性回归之类回归方法画个图就 ok 了. 预计你会积累出 http 接口调用, git 深入使用, 大规模文本处理等项目经验, 如果抓取和统计结果你用了关系数据库做存储的话, 你还能学会关系数据库(如mysql)的使用. 如果用scikit-learn做回归分析的话,你还能积累出一些机器学习的经验. 总的来说,是个简单又实际的题目.
收藏