R_草庐IT

如何从ASP.NET C＃运行R脚本

我想使用R。将它们保存为.png或.jpg映像。您能告诉我如何从C＃，ASP.NET调用R脚本。我发现R.NET有问题，因此我试图避免使用它。这是我的R脚本：library(stats)library(ggplot2)getwd()setwd("C:\\Users\\..................")mydatadata看答案R具有命令行可执行文件。有几种不同的话题，因此有各种答案的线程，以最佳的方式做到这一点。例如，请参阅如何使用批处理文件运行R语言（.R）文件？从C＃内部，您可以使用``System.diagnositics.process''使用您选择的方法启动可执行文件，并等待该

R textConnection速度慢

我有多个文件要加载，想将它们连接成一个数据框。我正在尝试使用textConnection，但它运行得非常慢。这是我将数据加载到R时的样子:"1995200008,10,1995,5190.61,73300""1995200010,1,1995,6776.44,42652""1995200011,11,1995,2315.83,4169""1995200014,6,1995,9846.79,2113""1995200017,8,1995,3978.93,2449""1995200018,6,1995,3582.69,2449""1995200022,7,1995,10409.18,285

r - 理解 R-Hive、Elastic MapReduce、RHIPE 和使用 R 的分布式文本挖掘

在我最近在Google实习期间学习了MapReduce来解决计算机视觉问题之后，我觉得自己像一个开明的人。我已经在使用R进行文本挖掘了。我想将R用于大规模文本处理和主题建模实验。我开始阅读教程并研究其中的一些。我现在将我对每个工具的理解写下来:1)R文本挖掘工具箱:用于本地(客户端)文本处理，它使用XML库2)Hive:Hadoopinterative，提供调用map/reduce的框架，也提供DFS接口(interface)，用于在DFS上存储文件。3)RHIPE:RHadoop集成环境4)ElasticMapReducewithR:一个为那些没有自己的集群的人准备的MapReduc

hadoop 将\r\n 转换为\n 并破坏 ARC 格式

我正在尝试使用hadoop流解析来自commoncrawl.org的数据。我设置了一个本地hadoop来测试我的代码，并有一个使用流式ARCfile读取器的简单Ruby映射器。当我自己调用我的代码时cat1262876244253_18.arc.gz|mapper.rb|reducer.rb它按预期工作。似乎hadoop自动发现该文件具有.gz扩展名并在将其交给映射器之前对其进行解压缩-然而在这样做时它会将流中的\r\n换行符转换为\n。由于ARC依赖于标题行中的记录长度，因此更改会破坏解析器(因为数据长度已更改)。为了仔细检查，我更改了我的映射器以期望未压缩的数据，并且做了:cat1

r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期

我正在尝试使用AmazonElasticMapReduce运行数百万个案例的一系列模拟。这是一个没有reducer的Rscript流作业。我在我的EMR调用--reducerorg.apache.hadoop.mapred.lib.IdentityReducer中使用IdentityReducer。脚本文件在手动传递一行字符串时从Linux机器上的命令行本地测试和运行时工作正常echo"1,2443,2442,1,5"|./mapper.R然后我得到了我期望的一行结果。但是，当我使用EMR上的输入文件中的大约10,000个案例(行)测试我的模拟时，在10,000个输入行中，我只得到了十

r - 使用 R 时我应该更喜欢 hadoop 还是 condor？

我正在寻找为大学计算机网格上的多台计算机发送作品的方法。目前它正在运行Condor并且还提供Hadoop。因此，我的问题是，我应该尝试将R接口(interface)到Hadoop还是接口(interface)到我的项目的Conder？为了便于讨论，我们假设我们正在讨论令人尴尬的并行任务。p.s:我看过CRANtaskviews中描述的资源. 最佳答案两者都可以。您可以将HDFS用于数据集，将Condor用于作业调度。使用Condor将执行程序放置在机器上，使用HDFS+HadoopsMap-Reduce功能来处理您的数据(假设您的

python - 扩展算法所需的概念和工具

我想开始考虑如何扩展我为数据分析编写的算法，以便它们可以应用于任意大的数据集。我想知道实现这一目标的相关概念(线程、并发、不可变数据结构、递归)和工具(Hadoop/MapReduce、Terracota和Eucalyptus)是什么，以及这些概念和工具之间的具体关系如何。我在R、Python和bash脚本以及C和Fortran编程方面有初步的背景，但我也熟悉一些基本的函数式编程概念。我是否需要改变我的编程方式，使用不同的语言(Clojure、Haskell等)，或者简单地(或不那么简单!)适应R/Hadoop(HRIPE)之类的东西……或为Python编写包装器启用多线程或Hadoo

R+Hadoop : How to read CSV file from HDFS and execute mapreduce?

在下面的例子中:small.ints=to.dfs(1:1000)mapreduce(input=small.ints,map=function(k,v)cbind(v,v^2))mapreduce函数的数据输入是一个名为small.ints的对象，它引用了HDFS中的block。现在我有一个CSV文件已经存储在HDFS中"hdfs://172.16.1.58:8020/tmp/test_short.csv"如何为它获取一个对象？据我所知(这可能是错误的)，如果我想将CSV文件中的数据作为mapreduce的输入，我必须首先在R中生成一个表，其中包含CSV文件中的所有值。我确实有这样的

r - 无法从 SparkR 创建的 DataFrame 中检索数据

我有以下简单的SparkR程序，它创建一个SparkRDataFrame并从中检索/收集数据。Sys.setenv(HADOOP_CONF_DIR="/etc/hadoop/conf.cloudera.yarn")Sys.setenv(SPARK_HOME="/home/user/Downloads/spark-1.6.1-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R","lib"),.libPaths()))library(SparkR)sc我能够成功创建它并查看信息，但是任何与获取数据相关的操作都会

r - Ubuntu集群管理

我正在尝试找出一个解决方案来管理一组linux机器(操作系统:Ubuntu，~40个节点。相同的硬件)。这些机器应该是彼此的镜像，安装在一台机器上的软件需要安装在另一台机器上。我的软件需求是hadoop、R和servicemix。所有机器上的R包也需要同步(安装在一台机器上的包需要在所有其他机器上可用)我现在使用的一种解决方案是使用NFS和pssh。我希望有更好/更简单的解决方案，这会让我的生活更轻松一些。任何建议表示赞赏。最佳答案两个流行的选择是Puppet来自PuppetLabs和Chef来自OpsCode。另一种可能的机制