emrs_草庐IT

hadoop - 配置 EMR 集群以实现公平调度

我正在尝试通过公平调度启动一个emr集群，以便我可以并行运行多个步骤。我看到这可以通过管道(https://aws.amazon.com/about-aws/whats-new/2015/06/run-parallel-hadoop-jobs-on-your-amazon-emr-cluster-using-aws-data-pipeline/)实现，但我已经通过调用awscli[1]的气流作业自动进行了集群管理/创建，所以只更新我的配置会很棒。awsemrcreate-cluster\--applicationsName=SparkName=Ganglia\--ec2-attribu

java - 使用自定义文件配置 EMR 节点

我正在尝试在AWSEMRHadoop集群上运行具有ApacheNutch依赖项的jar。问题是Nutch找不到插件类(我使用-Dplugin.folders指定插件位置)。我在本地测试了这个选项，它工作正常:java-cpapp.jar-Dplugin.folders=./nutch-plugins。我收到这个错误:19/07/2415:42:26INFOmapreduce.Job:TaskId:attempt_1563980669003_0005_m_000000_2,Status:FAILEDError:java.lang.RuntimeException:xpointorg.ap

自定 java code hadoop amazon-emr nutch

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业？

我正在尝试学习如何在亚马逊的EMR上运行JavaMap/Reduce(M/R)作业。我关注的文档在这里http://aws.amazon.com/articles/3938.我使用的是Windows7计算机。当我尝试运行此命令时，会显示帮助信息。./elasticmapreduce-client.rbRunJobFlowstreaming_jobflow.json当然，因为我在Windows机器上，所以我实际上输入了这个命令。我不确定为什么，但是对于这个特定的命令，没有Windows版本(所有命令都成对显示，一个用于*nix，一个用于Windows)。rubyelastic-mapre

mapreduce Windows elastic-mapreduce section hadoop elastic-map-reduce amazon-emr

hadoop - 无法使用自定义可执行文件运行 EMR Hadoop Streaming 作业

编辑:查看名称节点日志，我注意到会定期引发异常。可能相关吗？2013-04-1019:23:50,613WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping(IPCServerhandler43on9000):gotexceptiontryingtogetgroupsforuserjob_201304101854_0005org.apache.hadoop.util.Shell$ExitCodeException:id:job_201304101854_0005:Nosuchuseratorg.apache.hadoop.

自定 Streaming hadoop java apache amazon-web-services hadoop-streaming amazon-emr emr

java - 如何从 EMR 中的 s3 读取文件？

我想在我的EMRHadoop作业中从S3读取一个文件。我正在使用自定义JAR选项。我尝试了两种解决方案:org.apache.hadoop.fs.S3FileSystem:抛出一个NullPointerException。com.amazonaws.services.s3.AmazonS3Client:抛出异常，提示“拒绝访问”。我没能理解的是我是从控制台开始工作的，所以显然我应该有必要的权限。但是，映射器可用的环境变量(System.getenv())中缺少AWS_*_KEY键。我确定我做错了什么，只是不确定是什么。最佳答案可

java EMR section code AmazonS3Client hadoop amazon-s3 elastic-map-reduce

hadoop - 从 Hadoop Job Tracker Web 界面访问 EMR 任务日志

我已经为我的主/从节点打开了EC2安全组，这样我就可以从我的本地浏览器访问作业跟踪器界面。我使用http://MASTER-IP:9100连接到它。一切正常，直到我尝试从任务详细信息访问任务跟踪器日志-http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000我得到的链接指向内部EC2IP地址，因此我无法从我的本地计算机访问它们(链接为http://10.116.xxx.xx:9103/tasklog?attemptid=attempt

Tracker hadoop code 跟踪器 section amazon-ec2 emr

python - 确保 Hadoop EMR 上的日志

我在AmazonEMR上有一个长时间运行的Hadoop流作业(15个节点，>1.5小时)。作业在大约75%的完成水平时失败。我将Python用于mapper和reducer。我做了如下优化:sys.stdout=os.fdopen(sys.stdout.fileno(),'w',0)sys.stderr=os.fdopen(sys.stderr.fileno(),'w',0)logging.getLogger().setLevel(logging.INFO)我还在使用logging模块发出日志条目后添加了以下内容:sys.stderr.flush()time.sleep(30)sys.

python Hadoop section code pre amazon-web-services amazon-emr emr

hadoop - 亚马逊电子病历 : Set unique number of mappers and reducers per EMR instance

我正在运行一个具有M个核心实例和N个任务实例的AmazonEMR集群。我的作业每天运行多次并且对时间敏感，因此我保持M核心实例24/7全天候运行，这样我就没有与S3之间的数据传输开销。N个任务节点正在根据需要动态启动和终止。M个核心节点为c1.mediums，N个任务节点为m2.xlarge。有没有办法为每个实例配置mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum？对于我想要的核心节点:mapred.tasktracker.map.tasks.maximum=2mapred.task

病历 instance section tasktracker maximum hadoop configuration mapreduce amazon-emr

hadoop - EMR hadoop 报错ClassNotFoundException

这个错误的原因可能是什么。当我在我的本地机器上尝试时，它可以工作，但是当我尝试在AWSEMR中部署它时，我收到了这个错误。谢谢java.lang.RuntimeException:java.lang.RuntimeException:java.lang.ClassNotFoundException:ArticleLess$Reduceatorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:899)atorg.apache.hadoop.mapred.JobConf.getCombinerClass(JobCo

hadoop ClassNotFoundException java Configuration amazon-web-services amazon emr

ant - Amazon EMR 教程示例不使用 ant 进行编译

我正在尝试做AmazonEMR(ElasticMapReduce)的教程https://www.youtube.com/embed/ZSu8N2PoVbM?rel=0&hd=1;autoplay=1我下载了教程示例http://elasticmapreduce.s3.amazonaws.com/training/wikipedia-lab.tgz，它计算维基百科文档集合中二元组的数量。我一开始就卡住了:2.Buildthejobjar[Onyourdevmachine]%antcleanjobThiswillcreatethewikipedia-ngrams-job.jarHadoop

ant Amazon wikipedia javac wikipedia-lab hadoop emr