草庐IT

hadoop - 配置 EMR 集群以实现公平调度

我正在尝试通过公平调度启动一个emr集群,以便我可以并行运行多个步骤。我看到这可以通过管道(https://aws.amazon.com/about-aws/whats-new/2015/06/run-parallel-hadoop-jobs-on-your-amazon-emr-cluster-using-aws-data-pipeline/)实现,但我已经通过调用awscli[1]的气流作业自动进行了集群管理/创建,所以只更新我的配置会很棒。awsemrcreate-cluster\--applicationsName=SparkName=Ganglia\--ec2-attribu

java - 使用自定义文件配置 EMR 节点

我正在尝试在AWSEMRHadoop集群上运行具有ApacheNutch依赖项的jar。问题是Nutch找不到插件类(我使用-Dplugin.folders指定插件位置)。我在本地测试了这个选项,它工作正常:java-cpapp.jar-Dplugin.folders=./nutch-plugins。我收到这个错误:19/07/2415:42:26INFOmapreduce.Job:TaskId:attempt_1563980669003_0005_m_000000_2,Status:FAILEDError:java.lang.RuntimeException:xpointorg.ap

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业?

我正在尝试学习如何在亚马逊的EMR上运行JavaMap/Reduce(M/R)作业。我关注的文档在这里http://aws.amazon.com/articles/3938.我使用的是Windows7计算机。当我尝试运行此命令时,会显示帮助信息。./elasticmapreduce-client.rbRunJobFlowstreaming_jobflow.json当然,因为我在Windows机器上,所以我实际上输入了这个命令。我不确定为什么,但是对于这个特定的命令,没有Windows版本(所有命令都成对显示,一个用于*nix,一个用于Windows)。rubyelastic-mapre

hadoop - 无法使用自定义可执行文件运行 EMR Hadoop Streaming 作业

编辑:查看名称节点日志,我注意到会定期引发异常。可能相关吗?2013-04-1019:23:50,613WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping(IPCServerhandler43on9000):gotexceptiontryingtogetgroupsforuserjob_201304101854_0005org.apache.hadoop.util.Shell$ExitCodeException:id:job_201304101854_0005:Nosuchuseratorg.apache.hadoop.

java - 如何从 EMR 中的 s3 读取文件?

我想在我的EMRHadoop作业中从S3读取一个文件。我正在使用自定义JAR选项。我尝试了两种解决方案:org.apache.hadoop.fs.S3FileSystem:抛出一个NullPointerException。com.amazonaws.services.s3.AmazonS3Client:抛出异常,提示“拒绝访问”。我没能理解的是我是从控制台开始工作的,所以显然我应该有必要的权限。但是,映射器可用的环境变量(System.getenv())中缺少AWS_*_KEY键。我确定我做错了什么,只是不确定是什么。 最佳答案 可

hadoop - 从 Hadoop Job Tracker Web 界面访问 EMR 任务日志

我已经为我的主/从节点打开了EC2安全组,这样我就可以从我的本地浏览器访问作业跟踪器界面。我使用http://MASTER-IP:9100连接到它。一切正常,直到我尝试从任务详细信息访问任务跟踪器日志-http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000我得到的链接指向内部EC2IP地址,因此我无法从我的本地计算机访问它们(链接为http://10.116.xxx.xx:9103/tasklog?attemptid=attempt

python - 确保 Hadoop EMR 上的日志

我在AmazonEMR上有一个长时间运行的Hadoop流作业(15个节点,>1.5小时)。作业在大约75%的完成水平时失败。我将Python用于mapper和reducer。我做了如下优化:sys.stdout=os.fdopen(sys.stdout.fileno(),'w',0)sys.stderr=os.fdopen(sys.stderr.fileno(),'w',0)logging.getLogger().setLevel(logging.INFO)我还在使用logging模块发出日志条目后添加了以下内容:sys.stderr.flush()time.sleep(30)sys.

hadoop - 亚马逊电子病历 : Set unique number of mappers and reducers per EMR instance

我正在运行一个具有M个核心实例和N个任务实例的AmazonEMR集群。我的作业每天运行多次并且对时间敏感,因此我保持M核心实例24/7全天候运行,这样我就没有与S3之间的数据传输开销。N个任务节点正在根据需要动态启动和终止。M个核心节点为c1.mediums,N个任务节点为m2.xlarge。有没有办法为每个实例配置mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum?对于我想要的核心节点:mapred.tasktracker.map.tasks.maximum=2mapred.task

hadoop - EMR hadoop 报错ClassNotFoundException

这个错误的原因可能是什么。当我在我的本地机器上尝试时,它可以工作,但是当我尝试在AWSEMR中部署它时,我收到了这个错误。谢谢java.lang.RuntimeException:java.lang.RuntimeException:java.lang.ClassNotFoundException:ArticleLess$Reduceatorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:899)atorg.apache.hadoop.mapred.JobConf.getCombinerClass(JobCo

ant - Amazon EMR 教程示例不使用 ant 进行编译

我正在尝试做AmazonEMR(ElasticMapReduce)的教程https://www.youtube.com/embed/ZSu8N2PoVbM?rel=0&hd=1;autoplay=1我下载了教程示例http://elasticmapreduce.s3.amazonaws.com/training/wikipedia-lab.tgz,它计算维基百科文档集合中二元组的数量。我一开始就卡住了:2.Buildthejobjar[Onyourdevmachine]%antcleanjobThiswillcreatethewikipedia-ngrams-job.jarHadoop