EMR

hadoop - 为什么使用 c3.8xlarge 服务器的 AWS EMR 作业与使用 cc2.8xlarge 服务器的相同作业相比会严重滞后？

我怀疑这可能是AWS端的内部问题，但我想在这里发帖，因为我目前没有高级AWS支持(更新:已签名申请AWS支持，希望我能从他们那里得到答案)。我有一份经常性的EMR工作，最近我从使用cc2.8xlarge服务器切换到c3.8xlarge服务器。在我第一次使用新配置运行时，我的一个通常需要2-3分钟的map-reduce作业被卡住了，花费了超过9个小时将数据从映射器复制到唯一的reducer。我在9.5小时后终止了作业，重新尝试在新的EMR集群上启Action业，我在第一个小时内看到了相同的行为，因此再次终止了它。当我将工作切换回使用cc2.8xlarge服务器时，工作在2-3分钟内完成。

hadoop - 如何从 Ubuntu 中的命令行创建 Amazon EMR 集群？

如何在Ubuntu中通过命令行创建AmazonEMR集群？我有私钥、访问key和pem文件？....谁能指导我如何从命令行运行字数统计示例最佳答案您可以为此使用AWS命令行工具(CLI)。http://docs.aws.amazon.com/cli/latest/userguide/installing.html这些安装完成后，您必须使用“awsconfigure”命令配置工具并输入私有(private)key、访问key。http://docs.aws.amazon.com/cli/latest/userguide/cli

hadoop Ubuntu amazon latest section amazon-web-services amazon-emr

hadoop - 在 Amazon EMR 上设置 Spark 类路径

我正在尝试使用Hadoop2.4和Spark1.3.1在EMR(AMI3.6)上运行一些简单的作业。我在没有引导脚本的情况下手动安装了Spark。目前我正在尝试读取和处理来自S3的数据，但似乎我在我的类路径中丢失了无数的jar。在spark-shell上运行命令。启动shell使用:spark-shell--jarsjar1.jar,jar2.jar...在shell上运行的命令:vallines=sc.textFile("s3://folder/file.gz")lines.collect()错误总是类似于:“找不到类xyz”。找到所需的jar并将其添加到类路径后，我将再次收到此错误

hadoop Amazon section spark jar amazon-s3 apache-spark emr

hadoop - 配置 EMR 集群以实现公平调度

我正在尝试通过公平调度启动一个emr集群，以便我可以并行运行多个步骤。我看到这可以通过管道(https://aws.amazon.com/about-aws/whats-new/2015/06/run-parallel-hadoop-jobs-on-your-amazon-emr-cluster-using-aws-data-pipeline/)实现，但我已经通过调用awscli[1]的气流作业自动进行了集群管理/创建，所以只更新我的配置会很棒。awsemrcreate-cluster\--applicationsName=SparkName=Ganglia\--ec2-attribu

hadoop EMR section cluster apache-spark amazon-emr

java - 使用自定义文件配置 EMR 节点

我正在尝试在AWSEMRHadoop集群上运行具有ApacheNutch依赖项的jar。问题是Nutch找不到插件类(我使用-Dplugin.folders指定插件位置)。我在本地测试了这个选项，它工作正常:java-cpapp.jar-Dplugin.folders=./nutch-plugins。我收到这个错误:19/07/2415:42:26INFOmapreduce.Job:TaskId:attempt_1563980669003_0005_m_000000_2,Status:FAILEDError:java.lang.RuntimeException:xpointorg.ap

自定 java code hadoop amazon-emr nutch

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业？

我正在尝试学习如何在亚马逊的EMR上运行JavaMap/Reduce(M/R)作业。我关注的文档在这里http://aws.amazon.com/articles/3938.我使用的是Windows7计算机。当我尝试运行此命令时，会显示帮助信息。./elasticmapreduce-client.rbRunJobFlowstreaming_jobflow.json当然，因为我在Windows机器上，所以我实际上输入了这个命令。我不确定为什么，但是对于这个特定的命令，没有Windows版本(所有命令都成对显示，一个用于*nix，一个用于Windows)。rubyelastic-mapre

mapreduce Windows elastic-mapreduce section hadoop elastic-map-reduce amazon-emr

hadoop - 无法使用自定义可执行文件运行 EMR Hadoop Streaming 作业

编辑:查看名称节点日志，我注意到会定期引发异常。可能相关吗？2013-04-1019:23:50,613WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping(IPCServerhandler43on9000):gotexceptiontryingtogetgroupsforuserjob_201304101854_0005org.apache.hadoop.util.Shell$ExitCodeException:id:job_201304101854_0005:Nosuchuseratorg.apache.hadoop.

自定 Streaming hadoop java apache amazon-web-services hadoop-streaming amazon-emr emr

java - 如何从 EMR 中的 s3 读取文件？

我想在我的EMRHadoop作业中从S3读取一个文件。我正在使用自定义JAR选项。我尝试了两种解决方案:org.apache.hadoop.fs.S3FileSystem:抛出一个NullPointerException。com.amazonaws.services.s3.AmazonS3Client:抛出异常，提示“拒绝访问”。我没能理解的是我是从控制台开始工作的，所以显然我应该有必要的权限。但是，映射器可用的环境变量(System.getenv())中缺少AWS_*_KEY键。我确定我做错了什么，只是不确定是什么。最佳答案可

java EMR section code AmazonS3Client hadoop amazon-s3 elastic-map-reduce

hadoop - 从 Hadoop Job Tracker Web 界面访问 EMR 任务日志

我已经为我的主/从节点打开了EC2安全组，这样我就可以从我的本地浏览器访问作业跟踪器界面。我使用http://MASTER-IP:9100连接到它。一切正常，直到我尝试从任务详细信息访问任务跟踪器日志-http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000我得到的链接指向内部EC2IP地址，因此我无法从我的本地计算机访问它们(链接为http://10.116.xxx.xx:9103/tasklog?attemptid=attempt

Tracker hadoop code 跟踪器 section amazon-ec2 emr

python - 确保 Hadoop EMR 上的日志

我在AmazonEMR上有一个长时间运行的Hadoop流作业(15个节点，>1.5小时)。作业在大约75%的完成水平时失败。我将Python用于mapper和reducer。我做了如下优化:sys.stdout=os.fdopen(sys.stdout.fileno(),'w',0)sys.stderr=os.fdopen(sys.stderr.fileno(),'w',0)logging.getLogger().setLevel(logging.INFO)我还在使用logging模块发出日志条目后添加了以下内容:sys.stderr.flush()time.sleep(30)sys.

python Hadoop section code pre amazon-web-services amazon-emr emr

19 20 212223 24 25