我怀疑这可能是AWS端的内部问题,但我想在这里发帖,因为我目前没有高级AWS支持(更新:已签名申请AWS支持,希望我能从他们那里得到答案)。我有一份经常性的EMR工作,最近我从使用cc2.8xlarge服务器切换到c3.8xlarge服务器。在我第一次使用新配置运行时,我的一个通常需要2-3分钟的map-reduce作业被卡住了,花费了超过9个小时将数据从映射器复制到唯一的reducer。我在9.5小时后终止了作业,重新尝试在新的EMR集群上启Action业,我在第一个小时内看到了相同的行为,因此再次终止了它。当我将工作切换回使用cc2.8xlarge服务器时,工作在2-3分钟内完成。
如何在Ubuntu中通过命令行创建AmazonEMR集群?我有私钥、访问key和pem文件?....谁能指导我如何从命令行运行字数统计示例 最佳答案 您可以为此使用AWS命令行工具(CLI)。http://docs.aws.amazon.com/cli/latest/userguide/installing.html这些安装完成后,您必须使用“awsconfigure”命令配置工具并输入私有(private)key、访问key。http://docs.aws.amazon.com/cli/latest/userguide/cli
我正在尝试使用Hadoop2.4和Spark1.3.1在EMR(AMI3.6)上运行一些简单的作业。我在没有引导脚本的情况下手动安装了Spark。目前我正在尝试读取和处理来自S3的数据,但似乎我在我的类路径中丢失了无数的jar。在spark-shell上运行命令。启动shell使用:spark-shell--jarsjar1.jar,jar2.jar...在shell上运行的命令:vallines=sc.textFile("s3://folder/file.gz")lines.collect()错误总是类似于:“找不到类xyz”。找到所需的jar并将其添加到类路径后,我将再次收到此错误
我正在尝试通过公平调度启动一个emr集群,以便我可以并行运行多个步骤。我看到这可以通过管道(https://aws.amazon.com/about-aws/whats-new/2015/06/run-parallel-hadoop-jobs-on-your-amazon-emr-cluster-using-aws-data-pipeline/)实现,但我已经通过调用awscli[1]的气流作业自动进行了集群管理/创建,所以只更新我的配置会很棒。awsemrcreate-cluster\--applicationsName=SparkName=Ganglia\--ec2-attribu
我正在尝试在AWSEMRHadoop集群上运行具有ApacheNutch依赖项的jar。问题是Nutch找不到插件类(我使用-Dplugin.folders指定插件位置)。我在本地测试了这个选项,它工作正常:java-cpapp.jar-Dplugin.folders=./nutch-plugins。我收到这个错误:19/07/2415:42:26INFOmapreduce.Job:TaskId:attempt_1563980669003_0005_m_000000_2,Status:FAILEDError:java.lang.RuntimeException:xpointorg.ap
我正在尝试学习如何在亚马逊的EMR上运行JavaMap/Reduce(M/R)作业。我关注的文档在这里http://aws.amazon.com/articles/3938.我使用的是Windows7计算机。当我尝试运行此命令时,会显示帮助信息。./elasticmapreduce-client.rbRunJobFlowstreaming_jobflow.json当然,因为我在Windows机器上,所以我实际上输入了这个命令。我不确定为什么,但是对于这个特定的命令,没有Windows版本(所有命令都成对显示,一个用于*nix,一个用于Windows)。rubyelastic-mapre
编辑:查看名称节点日志,我注意到会定期引发异常。可能相关吗?2013-04-1019:23:50,613WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping(IPCServerhandler43on9000):gotexceptiontryingtogetgroupsforuserjob_201304101854_0005org.apache.hadoop.util.Shell$ExitCodeException:id:job_201304101854_0005:Nosuchuseratorg.apache.hadoop.
我想在我的EMRHadoop作业中从S3读取一个文件。我正在使用自定义JAR选项。我尝试了两种解决方案:org.apache.hadoop.fs.S3FileSystem:抛出一个NullPointerException。com.amazonaws.services.s3.AmazonS3Client:抛出异常,提示“拒绝访问”。我没能理解的是我是从控制台开始工作的,所以显然我应该有必要的权限。但是,映射器可用的环境变量(System.getenv())中缺少AWS_*_KEY键。我确定我做错了什么,只是不确定是什么。 最佳答案 可
我已经为我的主/从节点打开了EC2安全组,这样我就可以从我的本地浏览器访问作业跟踪器界面。我使用http://MASTER-IP:9100连接到它。一切正常,直到我尝试从任务详细信息访问任务跟踪器日志-http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000我得到的链接指向内部EC2IP地址,因此我无法从我的本地计算机访问它们(链接为http://10.116.xxx.xx:9103/tasklog?attemptid=attempt
我在AmazonEMR上有一个长时间运行的Hadoop流作业(15个节点,>1.5小时)。作业在大约75%的完成水平时失败。我将Python用于mapper和reducer。我做了如下优化:sys.stdout=os.fdopen(sys.stdout.fileno(),'w',0)sys.stderr=os.fdopen(sys.stderr.fileno(),'w',0)logging.getLogger().setLevel(logging.INFO)我还在使用logging模块发出日志条目后添加了以下内容:sys.stderr.flush()time.sleep(30)sys.