如果你是一个彻底的初学者,你可以按照下面的顺序进行:
•学习SQL和Python。
•然后从几门基础课程中学习机器学习。
•学习概率论和一些计算数学。
•统计的世界是广阔的,但非常有趣。
•看看论坛网站上的其他人在做什么。
•花时间在Scikit学习网站上。
•自己练习,一点一点地成长。
我个人经历的总结如下:
1.从Coursera学习所有的基础知识,但是从Coursera中学到的东西与浩瀚的数据科学宇宙相比较的话是完全不够的,你还需要继续深入学习。Coursera是一个很好的起点,它可以很容易地帮助初学者一点一点入门。
2.对于初出茅庐的工程师来说,Kaggle是一个非常好的资源,它可以帮助我们了解其他人的各种想法,并以此为基础进行开发。
我的知识储备主要来源于实践。我从SQL开始学习,然后接触了Python,又学习了R,之后我了解了Python和R中的许多库。在学习了html后,学会了使用VB脚本编写GUI,以及C#编程。归根结底,你需要学会真正“使用”所学的任何技能与工具。
3.深入研究数据,了解它们的结构与类型。明白为什么要收集这些数据,我们是如何收集它的,如何存储它的,以及在存储之前我们是如何处理它的。
4.学会如何用这些编程语言有效地处理数据,学会清理数据,随心所欲地处理它们,并尽可能地绘制它们,仅仅绘制数据就会花费我好几个小时的时间。后来,我学习了数据库表的结构,从管理数据库的朋友那里学到了他们是如何做到这一点的,以及在后台做了什么
5.然后我学会了如何绘制一些相关的图形,并计算出做任何事情的投资回报率。你需要对未来进行策划,这是非常重要的,它将引导你继续前进。同时我也会写报告,展示我的想法。我阅读了互联网上所有相关内容的论坛,来了解其他人如何做这些事情,其他人如何编写程序,我他们的项目中得到了很多想法,最终,将这些想法应用到自己的项目中去。
最后,给你推荐一些我浏览过的网站和教程:
• Stack Overflow
• Python Programming Tutorials
• The Comprehensive R Archive Network
• Seaborn: statistical data visualization
• Your Home for Data Science
• ipython/ipython
• vinta/awesome-python
• scikit-learn: machine learning in Python
• CodeAcademy: Python
• http://mahout.apache.org/
• http://www.netlib.org/lapack/
• http://www.netlib.org/eispack/
• http://www.netlib.org/scalapack/
• RegExr: Learn, Build, & Test RegEx
• Regex for JavaScript, Python, PHP, and PCRE