草庐IT

Start-Job

全部标签

hadoop - 运行hadoop example,遇到 ".staging/job_1541144755485_0002/job.splitmetainfo does not exist",怎么办?

我的配置如下:Hadoop实验我用了两台机器,分别是pc720(10.10.1.1)和pc719(10.10.1.2)。jdk(版本1.8.0_181)由apt-get安装。Hadoop2.7.1下载自https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/,并放入/opt/第一步:我配置了/etc/bash.bashrc,添加了exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64exportPATH=${JAVA_HOME}/bin:${PATH}exportHADOOP_HO

macos - 找不到 hadoop start-xxx.sh 命令和语法错误

我在我的MacOS上安装了Hadoop。我都尝试按照Hadoop文档和Brew上发布的方式进行操作。但是每当我尝试运行start-dfs.sh或start-yarn.sh或start-all.sh时,它只会抛出以下内容错误:如果您不想单击屏幕截图图像,请在此处粘贴文本中的终端错误:Startingresourcemanager/usr/local/Cellar/hadoop/3.1.1/libexec/bin/../libexec/hadoop-functions.sh:line398:syntaxerrornearunexpectedtoken`我已经完成了Hadooptutoria

amazon-web-services - 如何计算映射器/缩减器的数量,以最大限度地提高在亚马逊云上运行的 mahout Recommender Job 的性能?

根据AmazonElasticMapReduce上使用/可用的实例,计算要使用的正确hadoop映射器和缩减器数量的最佳方法是什么?(使用mahout-core-0.7发行版的RecommenderJob) 最佳答案 通用的Hadoop答案适用:让Hadoop选择映射器的数量将reducer的数量设置为等于集群中reduce插槽的数量对于EMR,查看在您使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/Ha

hadoop - 运行 hadoop start-all.sh 出错

我想在我的archlinux上运行hadoop,但我遇到了这个错误,我该如何解决?[]#./usr/lib/hadoop-2.2.0/sbin/start-all.shThisscriptisDeprecated.Insteadusestart-dfs.shandstart-yarn.shIncorrectconfiguration:namenodeaddressdfs.namenode.servicerpc-addressordfs.namenode.rpc-addressisnotconfigured.Startingnamenodeson[OpenJDK64-BitServerV

hadoop - 级联 2.0.0 作业在 hadoop FileNotFoundException job.split 上失败

当我在更大的数据集上运行我的作业时,许多映射器/缩减器失败导致整个作业崩溃。这是我在许多映射器上看到的错误:java.io.FileNotFoundException:Filedoesnotexist:/mnt/var/lib/hadoop/tmp/mapred/staging/hadoop/.staging/job_201405050818_0001/job.splitatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1933)atorg.apache.hadoop.hdfs.DFSCl

hadoop - NameNode 不以 start-all.sh 开头

在stop-all.sh和start-all.sh之后,NameNode没有启动。我尝试hadoopnamenode-format和hadoop-daemon.sh启动namenode然后一切正常。但是我的数据在HDFS中丢失了。我不想丢失数据。这样的结果,hadoopnamenode-format命令不是我想解决的路径。如何使用start-all.sh启动NameNode?谢谢 最佳答案 首先,stop-all.sh和start-all.sh已弃用。使用start-dfs.sh和start-yarn.sh而不是start-all.

hadoop - 亚马逊弹性 map 减少 : Job flow fails because output file is not yet generated

我有一个执行三项任务的AmazonEMR作业流程,第一项的输出是后续两项的输入。第二个任务的输出被第三个任务DistributedCache使用。我已经完全在EMR网站(控制台)上创建了作业流,但集群立即失败,因为它找不到分布式缓存文件-因为它尚未在步骤#1中创建。我唯一的选择是通过boostrap操作从CLI创建这些步骤,并指定--wait-for-steps选项吗?我无法执行一个任务的输入依赖于另一个任务的输出的多步骤作业流,这似乎很奇怪。 最佳答案 最后,我通过创建一个自举但没有任何步骤的AmazonEMR集群解决了这个问题。

hadoop2.6.0 sudo sbin/start-dfs.sh 失败

我正在关注Hadoopofficialtutorial在我的机器上以伪分布式模式运行Hadoop。我可以使用ssh无需密码登录本地主机:admin@mycomputer:/usr/local/hadoop/hadoop-2.6.0$sshlocalhostWelcometoUbuntu14.04.1LTS(GNU/Linux3.13.0-45-genericx86_64)*Documentation:https://help.ubuntu.com/4packagescanbeupdated.0updatesaresecurityupdates.Lastlogin:MonFeb912:3

shell - Oozie Job 仍处于 RUNNING 状态

我正在尝试在HDP集群上运行简单的oozie作业。执行oozie后,job保持Running状态。这是我的Workflow.xml${jobTracker}${nameNode}sqoopimport--connectjdbc:mysql://localhost:3306/test--tabletesting--split-byerr_dt--hive-import--hive-tabletesting-m1hive-site.xmlmysql-connector-java.jarActionfailed以下是正在生成的日志..2015-04-0714:33:32,792INFOAct

c# - MapReduce.SDK : How to wait for MapReduce job?

我正在使用MicrosoftMapReduceSDK启动仅Mapper作业。调用hadoop.MapReduceJob.ExecuteJob立即抛出“响应状态代码不表示成功:404(未找到)”异常。检查HDInsight查询控制台时,作业成功启动并稍后完成。它还会写入正确的输出文件。我的猜测是,ExecuteJob试图在作业完成之前访问输出数据。处理这种情况的正确方法是什么?usingSystem;usingSystem.Linq;usingSystem.Security.Cryptography.X509Certificates;usingMicrosoft.WindowsAzure