banner

R语言数据科学学习路径

作者: afenxi来源: afenxi时间:2017-06-09 15:25:41

摘要:人们学习R语言常见的问题之一是缺乏结构化学习道路

人们学习R语言常见的问题之一是缺乏结构化学习道路。他们不知道从哪里开始,如何进行,选择哪一条?尽管在互联网上有大量好的免费资源可用,但是,这可能既是压倒性的也是令人困惑的。

创建这个R学习路径,分析师Vidhya和DataCamp坐下来一起来选择一组全面的学习资源来帮助你从头学习R。对于任何刚接触数据科学或R的人来说,这种学习路径是一个不错的推荐,如果你是一个经验丰富的用户会对学习一些最新知识。

这将帮助你快速、高效地学习R。R学习会变得有趣 !

步骤0:热身

在开始你的旅程之前,回答的第一个问题是:为什么使用R ?或R为什么是有用的?

R是一个快速增长的开源商业软件包类似SAS,STATA和SPSS。就业市场对R技能的需求迅速增长,最近微软等公司承诺致力于R为数据科学的通用语言。

看这90秒Revolution Analytics公司视频了解R将会多么有用。顺便说一句,Revolution Analytics刚被微软收购。

步骤1:安装您的机器

安装R最简单的方法是,从全面R归档网络(CRAN)下载在本地计算机上。您可以Linux,Mac和Windows之间不同版本间进行选择。

虽然你可以考虑使用基本的R控制台,我们推荐您安装R的一个集成开发环境(IDE)。最广为人知的IDE是RStudio,使R编程更容易和更快,因为它允许输入多行代码,处理代码块,安装和维护包,在编程环境里更高效。替代RStudio框架Architect,是一个基于eclipse工作台。

(需要一个GUI吗?检查 R-commander or Deducer)

任务

1、安装R和RStudio。 2、安装包Rcmdr, rattle, and Deducer。建议安装所有推荐包或者依赖关系的包括GUI。 3、使用库命令加载这些包和开放这些gui。 步骤2:学习基本的R语言

你应该先了解该语言的基本知识,各种包和数据结构。

如果你喜欢一个在线互动学习环境学习R语法,有DataCamp这个免费的在线教程。继续本课程:中级R编程。另一种学习工具是这个在线版本的升级版,您可以在类似于RStudio的环境中学习的R这个在线版本。

R语言数据科学学习路径-数据分析网

除了这些互动的学习环境,你也可以选择在线课程如Coursera 或EDX报名参加。除了这些在线资源,你也可以考虑以下优秀的书本资源:

免费的“ introduction to R manual by CRAN ” Jared Lander的“R for Everyone” Quick-R

特别学习:读取表数据,数据帧,表,汇总,描述,装卸和安装软件包,使用绘图命令数据可视化。

任务:

1、参加 DataCamp免费在线R教程和熟悉基本R语法 2、 在http://github.com上创建一个GitHub账户 3、学习通过谷歌搜索的帮助来解决上述软件包安装 4、安装包和学习R编程(见上文) 步骤3:了解R社区

R的迅速增长,获得如此巨大的成功的原因,是因为其强大的社区。在R包生态系统中心。这些包可以从CRAN下载,或从Bioconductor、github和bitbucket。在Rdocumentation可以轻松搜索从CRAN,github上和Bioconductor获取包,将满足。

R语言数据科学学习路径-数据分析网

接下来的包生态系统的R,在努力学习R过程中你也可以很容易地找到帮助和反馈。首先,你可以通过命令来访问内置帮助系统?例如函数名称。也有分析师Vidhya表示,Stack Overflow 认为 R是增长最快速的语言之一。最终,有R爱好者运行众多的博客,会聚合成R-博客。

任务

通过访问CRAN任务视图理解R包生态系统 为每日简报注册http://r-bloggers.com 步骤4:导入并处理数据

导入和处理数据科学工作中的数据是重要的步骤。R允许不同数据格式的导入使用特定的包可以简化你的工作:

readr导入文本文件 readxl让excel文件导入R 还有 haven包允许您导入SAS, STATA and SPSS格式数据文件到R。 数据库连接可以通过包RMySQL和RpostgreSQL连接,使用DBI访问和操作 rvest 用户网络爬虫

一旦你的数据在你的工作环境已经准备好,开始使用这些包处理它

tidyr包清洗数据。 stringr包进行字符串操作。 处理数据帧对象,学习dplyr包的来龙去脉(尝试这门课)。 需要执行大量数据角力的任务吗?查看data.table包 执行时间序列分析?尝试包像像zoo, xts 和 quantmod。

任务

掌握通过 “导入数据到R”课程提到的包,或阅读这些文章1,2,3 and 4。 看到这个RStudio视频“Data Wrangling with R ”。 阅读和练习如何使用包像dplyr, tidyr,和data.table。 步骤5:有效的数据可视化

没有比创建自己的数据可视化更大令人满意的了。然而,可视化数据作为一门技能更像一种艺术,因为它是一种技巧。值得一读是“可视化定量数据”的Edward Tufte原则,或由Stephen Few的“the pitfalls on dashboard design ”。也看看Nathan Yau的博客,从而带来灵感,她在创建可视化时使用(主要)R。

5.1:情节无处不在

R提供多种方式创建图表。基本图形的标准方法是利用在R,然而,有更好的工具(或包)来创建你的图表,以更简单的方式,呈现的结果更美丽:

R语言数据科学学习路径-数据分析网 开始学习画图的语法,一个可行的方法来做R数据可视化。 如果可能,你想成为认真对待R数据可视化,掌握的最重要的包就是GGPLOT2包。 GGPLOT2是如此受欢迎,以至于网络上有大量的资源,如网上GGPLOT2教程,一个方便的小抄本或由哈德利韦翰著作的这本书。 一个包,如ggvis允许您使用图形的语法创建交互式Web图形(tutorial) 知道汉斯·罗斯林这个TED演讲?了解如何与googleVis(与谷歌图表的接口)重新创建。 如果你遇到绘制你的数据这篇文章可能有所帮助。

看到更多的可视化选项在这个CRAN任务视图

或者看看“R语言可视化指导”

5.2:世界各地的地图

对可视化数据空间分析感兴趣吗?开始学习“Introduction to visualising spatial data in R”,在R开始使用这两个包:

可视化空间数据和模型的静态地图来源,如谷歌地图和ggmap公开街道地图 阿里Lamstein choroplethr tmap包 R语言数据科学学习路径-数据分析网

5.3:HTML小部件

一个非常有前途的的可视化R新工具是使用HTML小部件。HTML小部件允许您创建交互式web可视化的一种简单的方法(参见本教程)和掌握这种类型的可视化很可能成为一个必须R技能。与这些可视化打动你的朋友和同事:

动态地图传单 使用dygraphs时间序列数据图表 互动表(datatable中) R制图的图表和流程图 d3散点图、线路图、和MetricsGraphics直方图

任务

确保你有理解图形的语法原则 ggplot2教程 RStudio教程操作html小部件 步骤6:数据挖掘和机器学习

对于统计学我们建议这些资源:

Andrew Conway’s Introduction to statistics with R (online) Data Analysis and Statistical Inference by Duke University (online) Practical Data Science With R (book) Data Science Specialization by Johns Hopkins (online) A Survival Guide to Data Science with R (book)

如果你想加强你的机器学习技能,考虑从这些教程:

Essentials of Machine Learning Algorithms Bike Sharing Competition – Complete Solution in R Kaggle Machine Learning course Machine Learning Mastery Intro To Machine Learning

请一定要看到在相关CRAN任务视图 - R提供的各种机器学习的包。

任务

开始统计入门课程之一 报名参加免费的kaggle机器学习课程。 如果你想要一本关于使用R数据挖掘书籍,他就在 Rattle 你可以从这本小册子学习时间序列预测- A Little Book for Time Series in R 。 步骤7:报告结果

和数据科学爱好者一同交流你的结果、分享你的见解和分析本身同样重要。幸运的是,R有一些非常漂亮的工具可以这样做,可以节省你大量的时间。

第一个为 R Markdown,基于knitr和pandoc可重复的方式报告数据分析结果使它一个伟大的工具。随着R降价,R生成最终的文件,替换生成结果的R代码。这个文件可以是一个html、word、PFD 、ioslides等格式。您可以通过本教程学习更多关于它的内容,并用这个小抄本作为参考。

和 R Markdown相近有ReporteRs。ReporteRs是一个R包创建的微缩软件((如Word docx and Powerpoint pptx)和html文件,运行在Windows、Linux、Unix和Mac OS系统。就像R Markdown的理想工具,自动生成R报告 。

最后,Shiny,目前激动人心的R工具之一。Shiny使得它非常方便地与R构建交互式Web应用程序,它可以让你把你的分析到交互式Web应用程序,而无需了解HTML,CSS或JavaScript。如果你想开始使用Shiny(相信我们,你应该!),在RStudio学习门户网站。

任务

创建您的第一个使用RMarkdown做的交互式报告或ReporteRs 尝试建立你的第一个Shiny应用

额外步骤:练习

你通过实践只会成为一个伟大的程序员。因此,一定要定期处理新数据科学的挑战。我们建议你们最好在Kaggle:https://www.kaggle.com/c/titanic-gettingStarted,可以开始与同样的数据科学家竞赛。

现场挑战测试你的R技能——实践问题

步骤8:时间序列分析

R有一个专门的时间序列任务视图。如果你在R想做一些时间序列分析,这绝对是开始的地方。你很快就会发现工具的范围和深度是巨大的。

你会轻松地学习R语言时间序列分析,不会耗尽网络资源。好的出发点都是一本R语言时间序列小书,或退房预测:原理和实践。在包方面,你需要确保你熟悉ZOO包和XTS。ZOO为您提供了节省时间序列对象格式过程,而XTS让你处理时间序列数据集的工具。

替代资源:关于时间序列的综合教程

任务

学习一本上面列出的时间系列推荐教程,准备好开始你自己的分析。 使用包 quantmod or quandl下载等财务数据,开始自己的时间序列分析。 使用包如dygraphs创造惊人的时间序列数据的可视化和分析。

额外步骤——文本挖掘也很重要!

学习文本挖掘,您可以参考文本挖掘分析模块(analytics edge course)。不过,课程存档,您仍然可以访问教程。

 步骤9:成为一个R的主人

既然您已经学到的大部分数据分析使用R,是时候给一些高级主题。很有可能你已经知道这些,但请也看看这些教程。

Hadley Wickham的Advanced R 使用R与Hadoop, MongoDB or NoSQL 微软的RevoScaleR包 (以前Revolution Analytic公司的)

你想应用你的分析技能和测试你的潜力吗?参与我们的活动,与许多来自世界各地数据科学家们一起比赛吧。

原文链接:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/

数据分析网翻译小组翻译,翻译成员——Blanche,具有数学与统计背景,硕士毕业在一家通信运营商做数据分析与建模,爱运动爱音乐,关心大数据,立志做好一名数据挖掘攻城师。

banner
看过还想看
可能还想看
最新文章
Yonghong Z-Suite一站式大数据分析平台 —— 以卓越的数据技术为客户创造价值,实现客户成功。