草庐IT

run-configuration

全部标签

java - 亚马逊电子病历 : running Custom Jar with input and output from S3

我正在尝试运行具有自定义jar步骤的EMR集群。该程序从S3获取输入并输出到S3(或者至少这是我想要完成的)。在步骤配置中,我在参数字段中有以下内容:v3.MaxTemperatureDrivers3n://hadoopbook/ncdc/alls3n://hadoop-szhu/max-temp其中hadoopbook/ncdc/all是包含输入数据的存储桶的路径(作为旁注,我正在运行的示例来自此book),并且hadoop-szhu是我自己的存储桶,我想在其中存储输出。按照这个post,我的MapReduce驱动程序如下所示:packagev3;importorg.apache.h

hadoop - IO异常 : Filesystem closed exception when running oozie workflow

我们在oozie中运行一个工作流。它包含两个操作:第一个是在hdfs中生成文件的mapreduce作业,第二个是将文件中的数据复制到数据库的作业。两个部分都成功完成,但oozie在最后抛出一个异常,将其标记为失败的过程。这是异常(exception)情况:2014-05-2017:29:32,242ERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:lpinsight(auth:SIMPLE)cause:java.io.IOException:Filesystemclosed

hadoop - java.net.ConnectException : Connection refused error when running Hive 异常

我正在尝试完成配置单元教程,我在其中输入了以下内容:loaddatalocalinpath'/usr/local/Cellar/hive/0.11.0/libexec/examples/files/kv1.txt'overwriteintotablepokes;这会导致以下错误:FAILED:RuntimeExceptionjava.net.ConnectException:Calltolocalhost/127.0.0.1:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused我看到SA上

hadoop - 为什么 YARN 作业不转换到 RUNNING 状态?

我有许多要运行的Samza作业。我可以让第一个运行正常。但是,第二个作业似乎处于ACCEPTED状态,并且在我杀死第一个作业之前永远不会转换到RUNNING状态。这是YARNUI的View:这是第二个作业的详细信息,您可以在其中看到没有分配任何节点:我有2个数据节点,所以我应该能够运行多个作业。这是我的yarn-site.xml的相关部分(我在文件中唯一的其他配置是与HA配置、Zookeeper等有关):yarn.scheduler.minimum-allocation-mb128Minimumlimitofmemorytoallocatetoeachcontainerrequesta

function - Hadoop 中 org.apache.hadoop.mapreduce.Mapper.run() 函数的用途是什么?

Hadoop中org.apache.hadoop.mapreduce.Mapper.run()函数的用途是什么?setup()在调用map()之前调用,而clean()在map()。run()的文档说ExpertuserscanoverridethismethodformorecompletecontrolovertheexecutionoftheMapper.我正在寻找这个功能的实际用途。 最佳答案 默认的run()方法简单地获取上下文提供的每个键/值对并调用map()方法:publicvoidrun(Contextcontext

hadoop - Configured类在Hadoop程序中有什么用?

大部分HadoopMapReduce程序都是这样的:publicclassMyAppextendsConfiguredImplementsTool{@Overridepublicintrun(String[]args)throwsException{Jobjob=newJob(getConf());/*processcommandlineoptions*/returnjob.waitForCompletion(true)?0:1;}publicstaticvoidmain(String[]args)throwsException{intexitCode=ToolRunner.run(n

hadoop - Oozie 作业错误 - java.io.IOException : configuration is not specified

我已经为配置单元脚本创建了一个oozie工作流来将数据加载到表中。我的workflow.xml包含-${jobTracker}${nameNode}${workflowRoot}/hive-site.xmloozie.hive.defaults${workflowRoot}/hive-site.xmlload_data.hqlHivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我的job.properties文件包含-nameNode=hdfs://localhost:8020jobTracker=localho

configuration - 如何针对远程集群运行 HBase shell

我在我的工作站上以伪分布式模式运行HBase。我们还在集群上运行HBase。使用HBaseshell,我想从我的工作站访问集群上运行的HBase实例。我想在不登录其中一台集群机器的情况下执行此操作。使用Hadoop,您可以通过指定-conf参数并提供hadoop-site.xml的替代版本在远程集群上运行作业。HBaseshell是否有等效项?我在我的工作站和集群机器上运行clouderacdh3u3。 最佳答案 更改以下配置文件。对于hadoop:core-site.xml、mapred-site.xml。对于hbase:hbas

hadoop - 异常 : java. Spark 中的 lang.Exception : When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi

hadoop java.io.IOException : while running namenode -format 错误

我运行了namenode-format。这是我的输出。我尝试更改文件权限chmod777hadoop。我相信这一行是错误的错误namenode.NameNode:java.io.IOException:无法创建目录/your/path/to/hadoop/tmp/dir/hadoop-hadoop/dfs/name/currentadoop@alexander-desktop:/usr/local/hadoop/bin$./hadoopnamenode-format12/07/0317:03:56INFOnamenode.NameNode:STARTUP_MSG:/**********