R

r - 以不同的用户身份启动 R

在我的PC上创建Hadoop环境时，我创建了一个用户hduser。在这个Hadoop环境中，我安装了RHadoop。但是现在我在启动R并尝试执行一些Hadoop操作时遇到一些权限问题，因为我为hduser创建了Hadoop环境。是否可以控制我运行R的用户身份？如何以hduser身份启动它？我尝试以hduser身份登录，以便在那里安装和启动R，但这没有用，因为我无法以hduser身份登录。P.S.:我对Ubuntu和Hadoop还很陌生最佳答案 runuser-lhduser'R'或su-hduser除非您是super用户，否则这是

以不同 section hduser Hadoop r ubuntu

r - Spark 错误 : No rows dropped by 'na.omit' call

当我尝试将ml_decision_tree或ml_logistic_regresion与Sparklyr包一起使用时，出现以下错误。我在cloudera集群上使用spark2.1.0。>Norowsdroppedby'na.omit'call.Errorin>stop(simpleError(sprintf(fmt,...),if(call.)>sys.call(sys.parent()))):baderrormessage下面是我运行的代码片段:at%ft_string_indexer(input.col=col,output.col=paste0(col,"_in"))%>%ft_

amp dropped data features section r hadoop cloudera apache-spark-mllib sparklyr

rhdfs - RJavaTools 将数据集写入 hdfs 时出错

我在hadoop的hortonworks沙箱版本上运行rStudioServer。我加载了rhdfs包，但是当我尝试使用hdfs.put()命令将数据集写入hdfs时，我收到以下错误:hdfs.put(mtcars,"/user/root")Errorin.jcall("RJavaTools","Ljava/lang/Object;","invokeMethod",cl,:java.io.IOException:Filec(21,21,22.8,21.4,18.7,18.1,14.3,24.4,22.8,19.2,17.8,16.4,17.3,15.2,10.4,10.4,14.7,3

时出 RJavaTools section hdfs 34 r hadoop rjava

r - R 如何使用 RJDBC 连接到 Hive？

我使用的是hadoop-2.2.0和hive-0.12。我按照以下步骤尝试连接到Rstudio中的Hive:library("DBI")library("rJava")library("RJDBC")for(linlist.files('/PATH/TO/hive/lib/')){.jaddClassPath(paste("/PATH/TO/hive/lib/",l,sep=""))}for(linlist.files('/PATH/TO/hadoop/')){.jaddClassPath(paste("/PATH/TO/hadoop/",l,sep=""))}options(java

RJDBC Hive 34 section r hadoop

r - 在 R 中运行 map reduce 作业时出错

我刚刚开始集成RHadoop。它是与Hadoop集成的R-studio服务器，但在运行map-reduce作业时出现错误。当我运行以下代码行时。library(rmr2)a堆栈跟踪:15/03/2421:13:47INFOConfiguration.deprecation:mapred.reduce.tasksisdeprecated.Instead,usemapreduce.job.reducespackageJobJar:[][/usr/lib/hadoop-mapreduce/hadoop-streaming-2.5.0-cdh5.2.0.jar]/tmp/streamjob47

中运时出 hadoop java apache r mapreduce hadoop-streaming rhadoop

在 Rstudio 中读取 HDFS block

我想读HDFSRstudio中的文件，它不是一个容易做的CSV文件，但它们是block。我使用sqoop从数据库加载数据，所以我将数据分成block。我有这样的文件:/data/_SUCCESS/data/part-m-00000/data/part-m-00001/data/part-m-00002/data/part-m-00003/data/part-m-00004/data/part-m-00005但我无法读取所有文件，使用此命令我一次只能读取一个文件:hdfs.data//每次都更改part-m-0000*，*无法读取所有文件... 最佳答案

Rstudio block section part-m data r hadoop

r - 示例不工作 - bind.cols 使用 plyrmr

为什么这个简单的代码块不能使用plyrmr？input(mtcars)%|%group(gear)%|%bind.cols(obs=seq(from=1,to=nrow()))我得到的错误是:Error:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode1 最佳答案好吧，我发现了错误，我应该包含对管道的引用，如下所示:input(mtcars)%|%group(gear)%|%bind.cols(obs=seq(fro

plyrmr bind code section pre r hadoop

在rmarkDown文档的R包中包括Tex标头

我想创建一个包含乳胶标头文件的R软件包，然后将从RmarkDown文档中获得，以创建带有幻灯片的PDF通过TEX。当我在rmarkDown文档的标题中包含对乳胶文件的引用时，我可以创建幻灯片。但是我不知道如何打包。所以我的两个相关问题是：如何将乳胶文件放入R包中，以便以后可以访问？如何将乳胶文件包含在新的rmarkDown文档中以在加载软件包后创建幻灯片（例如模板）？看答案是的你可以。做类似的事情---output:beamer_presentation:includes:in_header:my_header.tex---和my_header.tex可能是任何（LA）TEX代码，包括软件包负

标头中包软件包 section 乳胶

hadoop - 在 GCP 上连接 b/w R studio server pro 和 hive

这不是与编程相关的问题，请耐心等待。我目前在GCP上设置了两个实例——一个是RstudioserverPRO，另一个是我的HiveDB集群。我希望使用我的rstudioserverpro访问配置单元中的数据库。两者都在GCP上运行。有人可以指导我吗？(我看过有关rstudio桌面的文章--->hive连接以及从spark集群中运行rstudio-server的文章，但我必须将RstudioserverPRO链接到hivedb，两者都在GCP上运行:O) 最佳答案供将来引用:Rstudio-Dataproc-在这种特殊情况下，我将数

hadoop studio code image pre hive google-cloud-platform google-cloud-dataproc rstudio-server

Oracle R Enterprise (ORE) KMeans 包

我的任务是在SAS服务器上运行K-Means聚类算法，但内存不足。数据集是500G，我知道我可以对其进行采样以适合内存，但如果我想在整个数据上运行模型，OracleREnterprise(ORE)会帮助解决我的问题吗？关于ORE和ORCH的其他相关问题:OracleR包是否包含任何聚类算法？是否有可用的OracleR包列表？如果我在OracleREnterprise中运行kmeans算法(RCRAN包)，我是否也会遇到内存问题？BDA中是否有任何R集群包可用，可以在分布式Hadoop集群上运行？谢谢最佳答案您最好的选择是在Had

Enterprise Oracle section Hadoop r

68 69 707172 73 74