r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期

coder 2024-01-06 原文

我正在尝试使用 Amazon Elastic Map Reduce运行数百万个案例的一系列模拟。这是一个没有 reducer 的 Rscript 流作业。我在我的 EMR 调用 --reducer org.apache.hadoop.mapred.lib.IdentityReducer 中使用 Identity Reducer。

脚本文件在手动传递一行字符串时从 Linux 机器上的命令行本地测试和运行时工作正常 echo "1,2443,2442,1,5"| ./mapper.R 然后我得到了我期望的一行结果。但是，当我使用 EMR 上的输入文件中的大约 10,000 个案例(行)测试我的模拟时，在 10,000 个输入行中，我只得到了十几行左右的输出。我已经尝试了几次，但我不明白为什么。 Hadoop 作业运行良好，没有任何错误。似乎输入行被跳过，或者 Identity reducer 可能发生了一些事情。对于有输出的情况，结果是正确的。

我的输入文件是一个具有以下数据格式的 csv，由逗号分隔的一系列五个整数:

1,2443,2442,1,5
2,2743,4712,99,8
3,2443,861,282,3177
etc...

这是我的 mapper.R

R 脚本

#! /usr/bin/env Rscript

# Define Functions
trimWhiteSpace <- function(line) gsub("(^ +)|( +$)", "", line)
splitIntoWords <- function(line) unlist(strsplit(line, "[[:space:]]+"))
# function to read in the relevant data from needed data files
get.data <- function(casename) {
    list <- lapply(casename, function(x) {
        read.csv(file = paste("./inputdata/",x, ".csv", sep = ""),
                 header = TRUE,
        stringsAsFactors = FALSE)})
    return(data.frame(list))
}

con <- file("stdin")            
line <- readLines(con, n = 1, warn = FALSE) 
line <- trimWhiteSpace(line)
values <- unlist(strsplit(line, ","))
lv <- length(values)
cases <- as.numeric(values[2:lv])
simid <- paste("sim", values[1], ":", sep = "")
l <- length(cases)                      # for indexing

## create a vector for the case names
names.vector <- paste("case", cases, sep = ".")

## read in metadata and necessary data columns using get.data function
metadata <- read.csv(file = "./inputdata/metadata.csv", header = TRUE,
                     stringsAsFactors = FALSE)
d <- cbind(metadata[,1:3], get.data(names.vector))

## Calculations that use df d and produce a string called 'output' 
## in the form of "id: value1 value2 value3 ..." to be used at a 
## later time for agregation.

cat(output, "\n")
close(con)

此模拟的(广义)EMR 调用是:

ruby elastic-mapreduce --create --stream --input s3n://bucket/project/input.txt --output s3n://bucket/project/output --mapper s3n://bucket/project/mapper.R --reducer org.apache.hadoop.mapred.lib.IdentityReducer --cache-archive s3n://bucket/project/inputdata.tar.gz#inputdata --name Simulation --num-instances 2

如果有人对我可能遇到这些问题的原因有任何见解，我愿意接受建议，以及对 R 脚本的任何更改/优化。

我的另一个选择是将脚本转换为函数并使用 R 多核包运行并行应用，但我还没有尝试过。我想让它在 EMR 上运行。我用了JD Long's和 Pete Skomoroch's R/EMR 示例作为创建脚本的基础。

最佳答案

没有明显的跳出。但是，您能否使用仅 10 行的简单输入文件来运行该作业？确保这 10 行是未在您的大型测试用例中运行的场景。试试这个来消除您的输入导致 R 脚本不产生答案的可能性。

调试 EMR 作业本身就是一项技能。

编辑:

这是一次全面的钓鱼探险，但使用 AWS GUI 启动了 EMR 交互式 pig session 。 “Interactive pig” session 保持运行，因此您可以通过 ssh 访问它们。您也可以通过命令行工具执行此操作，但通过 GUI 更容易一些，因为希望您只需要执行一次。然后 ssh 进入集群，将你的测试用例传输到你的缓存文件和你的映射器中，然后运行这个:

cat infile.txt | yourMapper.R > 输出文件.txt

这只是为了测试您的映射器是否可以在没有 Hadoop 位的情况下在 EMR 环境中解析 infile。

编辑 2:

我将上面的文字留给后代使用，但真正的问题是您的脚本永远不会返回到标准输入以获取更多数据。因此，您为每个映射器运行一次，然后结束。如果你运行上面的一行，你只会得到一个结果，而不是 infile.txt 中每一行的结果。如果您甚至在本地机器上运行了 cat 测试，错误应该会弹出!

让我们看看皮特的 word count in R example :

#! /usr/bin/env Rscript

trimWhiteSpace <- function(line) gsub("(^ +)|( +$)", "", line)
splitIntoWords <- function(line) unlist(strsplit(line, "[[:space:]]+"))

## **** could wo with a single readLines or in blocks
con <- file("stdin", open = "r")
while (length(line <- readLines(con, n = 1, warn = FALSE)) > 0) {
    line <- trimWhiteSpace(line)
    words <- splitIntoWords(line)
    ## **** can be done as cat(paste(words, "\t1\n", sep=""), sep="")
    for (w in words)
        cat(w, "\t1\n", sep="")
}
close(con)

您的脚本缺少的部分是这一点:

 while (length(line <- readLines(con, n = 1, warn = FALSE)) > 0) {
        #do your dance
        #do your dance quick
        #come on everybody tell me what's the word
        #word up
    }

当然，您应该替换 Cameo's Word Up 的歌词!用你的实际逻辑。

请记住，适当的调试音乐可以减轻这个过程的痛苦:

http://www.youtube.com/watch?v=MZjAantupsA

关于r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4443751/

射器 MapReduce 34 code line r hadoop simulation amazon-emr

有关r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期的更多相关文章

ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby-on-rails - 独立 ruby 脚本的配置文件 - 2
我有一个在Linux服务器上运行的ruby脚本。它不使用rails或任何东西。它基本上是一个命令行ruby脚本，可以像这样传递参数:./ruby_script.rbarg1arg2如何将参数抽象到配置文件(例如yaml文件或其他文件)中？您能否举例说明如何做到这一点？提前谢谢你。最佳答案首先，您可以运行一个写入YAML配置文件的独立脚本:require"yaml"File.write("path_to_yaml_file",[arg1,arg2].to_yaml)然后，在您的应用中阅读它:require"yaml"arg
ruby-on-rails - date_field_tag，如何设置默认日期？ [ rails 上的 ruby ] - 2
我想设置一个默认日期，例如实际日期，我该如何设置？还有如何在组合框中设置默认值顺便问一下，date_field_tag和date_field之间有什么区别？最佳答案试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag，如何设置默认日期？[rails上的ruby]，我们在StackOverflow上找到一个类似的问
ruby-on-rails - openshift 上的 rails 控制台 - 2
我将我的Rails应用程序部署到OpenShift，它运行良好，但我无法在生产服务器上运行“Rails控制台”。它给了我这个错误。我该如何解决这个问题？我尝试更新rubygems，但它也给出了权限被拒绝的错误，我也无法做到。railsc错误:Warning:You'reusingRubygems1.8.24withSpring.UpgradetoatleastRubygems2.1.0andrun`gempristine--all`forbetterstartupperformance./opt/rh/ruby193/root/usr/share/rubygems/rubygems
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
postman——集合——执行集合——测试脚本——pm对象简单示例02 - 2
//1.验证返回状态码是否是200pm.test("Statuscodeis200",function(){pm.response.to.have.status(200);});//2.验证返回body内是否含有某个值pm.test("Bodymatchesstring",function(){pm.expect(pm.response.text()).to.include("string_you_want_to_search");});//3.验证某个返回值是否是100pm.test("Yourtestname",function(){varjsonData=pm.response.json
ruby-on-rails - Ruby - 如何从 ruby 上的 .pfx 文件中提取公钥、rsa 私钥和 CA key - 2
我有一个.pfx格式的证书，我需要使用ruby提取公共(public)、私有(private)和CA证书。使用shell我可以这样做:#ExtractPublicKey(askforpassword)opensslpkcs12-infile.pfx-outfile_public.pem-clcerts-nokeys#ExtractCertificateAuthorityKey(askforpassword)opensslpkcs12-infile.pfx-outfile_ca.pem-cacerts-nokeys#ExtractPrivateKey(askforpassword)o
ruby - 确定 ruby 脚本是否已经在运行 - 2
有没有一种简单的方法可以判断ruby脚本是否已经在运行，然后适本地处理它？例如:我有一个名为really_long_script.rb的脚本。我让它每5分钟运行一次。当它运行时，我想看看之前运行的是否还在运行，然后停止第二个脚本的执行。有什么想法吗？最佳答案 ps是一种非常糟糕的方法，并且可能会出现竞争条件。传统的Unix/Linux方法是将PID写入文件(通常在/var/run中)并在启动时检查该文件是否存在。例如pid文件位于/var/run/myscript.pid然后你会在运行程序之前检查它是否存在。有一些技巧可以避免
ruby - ruby 脚本可以预编译成二进制文件吗？ - 2
我正在开发一个Ruby脚本，需要在没有Ruby解释器的情况下部署到系统上。它将需要在使用ELF格式的FreeBSD系统上运行。我知道有一个ruby2exe项目可以编译在Windows上运行的ruby脚本，但是在其他操作系统上这样做容易吗？甚至可能吗？最佳答案您是否检查过Rubinius或JRuby是否允许您预编译您的代码？关于ruby-ruby脚本可以预编译成二进制文件吗？，我们在StackOverflow上找到一个类似的问题： https://
带有 attr_accessor 的类上的 Ruby instance_eval - 2
我了解instance_eval和class_eval之间的基本区别。我在玩弄时发现的是一些涉及attr_accessor的奇怪东西。这是一个例子:A=Class.newA.class_eval{attr_accessor:x}a=A.newa.x="x"a.x=>"x"#...expectedA.instance_eval{attr_accessor:y}A.y="y"=>NoMethodError:undefinedmethod`y='forA:Classa.y="y"=>"y"#WHATTT?这是怎么回事:instance_eval没有访问我们的A类(对象)然后它实际上将它添加到

r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期

有关r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期的更多相关文章

随机推荐