R分析和Altair网格引擎
在统计学家和数据科学家中,R仍然是最受欢迎和多功能的编程语言之一。根据这一点kdnuggets.年度软件调查,R一直是过去三年的顶级科学工具之一。在最近的2018年调查中,50%的数据科学家自我确定为正在运行的R.在本文中,我将讨论R并解释分析师和数据科学家如何利用Altair网格引擎与R和其他分析应用一起使用。bob电竞官方
关于R语言
R是开源的,可以在多个平台上运行,尽管需要解释,但它的运行速度非常快,执行性能可以与编译代码相媲美。它也是面向对象的,支持集成的数据可视化,并且易于扩展。大约有5,000个R附加包可从综合R归档网络(凹口)和其他来源。数据科学家和分析师在几乎每个领域都使用R遗传从遗传到机器学习到经济学的自然语言处理。bob电竞官方灵感来自早期的S编程语言,R于1995年首次发布,2000年提供稳定的Beta版本。
R提供多个接口
类似于大多数解释语言,R通常从命令行运行。需要创建脚本并不交互地运行R的程序员可以使用该脚跟可以调用R解释器CMD批参数,并向解释器传递一个由R命令组成的输入文件。除了CMD BATCH选项,R还支持Rscript,这是一种简化脚本的二进制前端。Rscript将为Linux用户所熟悉。R脚本使用熟悉的工作#!/usr/bin/Rscript在文件的顶部构造(#!/usr/bin/Rscript),使R脚本可从命令行执行。
2011年,与开源的初始版本更容易使用rstudio..RStudio是一个用于R的集成开发环境(IDE),它包括一个控制台、一个语法高亮编辑器和一个用于数据集交互可视化的绘图窗口。对于使用小型模型的用户,RStudio可以运行在台式机或笔记本电脑上,而在较大的环境中,RStudio Server为多个用户提供了通过web界面访问RStudio的权限。虽然有些用户仍然使用命令行,但大多数R用户更喜欢在RStudio中工作。R命令行是RStudio中公开的一个窗格,因此分析人员没有理由使用R离开IDE。
R在网格计算环境中
R脚本可以从命令行运行的事实使得与Altair网格引擎集成普通。Grid Engine用户可以使用RScript或R CMD批处理指令行选项提交R作业,而Rstudio也可以轻松集成Grid环境。在分布式群集中运行R的唯一要求是R解释器存在于每个网格引擎节点上。
跨集群并行化R计算是一个常见的用例。CRAN资源网站提供了一个完整的“任务视图”,专门用于主题高性能并行计算与R.虽然用户通常会使用RStudio界面,但在幕后,并行的R应用程序会透明地将网格引擎工作提交到集群,并在将结果返回给在RStudio中工作的分析师之前汇总结果。bob电竞官方关于底层集群的详细信息对R开发人员是隐藏的。他们只需要知道如何编写适当的并行R语言框架。
在R的许多并行计算包中,Altair Grid Engine用户会对一些关键模块感兴趣。
- Batchjobs.- 批处理作业是一种通用接口,可以轻松地从RStudio或RScipt中并行化R应用程序。bob电竞官方用户可以将Batchjobs库添加到RStudio中的脚本,并利用方便的Batchjobs方法设置,提交和监控作业执行,并收集结果。
- RMPI.—Rmpi是R的一个包,为MPI的开源版本(OpenMPI、MPICH、MPICH2和LAM-MPI)提供R语言包装器。使用Rmpi,开发人员可以在R中并行化模型,并在RStudio中将它们作为并行MPI作业在Altair Grid Engine上执行
- qsub- QSUB是一个专为网格引擎用户开发的R包。QSUB为开发人员提供了一种通过提供网格引擎感知的开发人员并将其并行化的方便方法bob电竞官方
- mclapply()使用Altair网格引擎集群透明地将操作透明并行于R列表对象或向量(R)的载体(r)上的操作。
笔记本电脑值得特别提及,因为在R中工作的数据科学家和统计人员经常需要与他人合作和分享模型。Apache zeppelin.和Jupyter笔记本都用作基于r的应用程序的前端。bob电竞官方RStudio还支持一个名为r Markdown笔记本.闪亮的是一个单独的rstudio附加组件,它可以通过交互式Web界面进行r才能通过交互式Web界面开发的模型,以创建用于可视化数据的高质量交互式接口。
在共享集群环境中运行R为分析师和数据科学家以及支持分析环境的IT人员提供了多个优势:
- 使用RStudio服务器和流行的笔记本电脑具有浏览器的任何用户都可以合作数据和分析模型,以获得更好的分析师生产力
- 分析师可以构建并行模型,并利用Altair Grid Engine集群在更短的时间内对更大的数据集进行更深入的分析
- 而不是在本地数据副本上工作,多个用户可以协作可从群集计算节点访问的共享数据集避免版本控制和数据移动问题
- 分析师可以在多个分析和机器学习框架中共享相同的计算基础设施,包括R、Python、TensorFlow、MatLab和Spark。
- 最后,用户可以选择使用额外的容量或使用专用资源时挖掘云资源Navops发射无缝地将分析工作负载扩展到云。
根据kd掘金的研究,数据科学家平均运行7种不同的分析框架。R、Python、Anaconda、scikit-learn、Tensorflow、Keras和Apache Spark都是很受欢迎的选择。这些框架中的大多数都可以从分布式网格计算环境中受益。对于IT组织来说,提供一个可以支持多种分析工具和框架的共享网格环境才有意义。
您是否使用Altair Grid Engine来运行R、Python或其他数据科学工作负载?我们很想听听你的经历。