作业组

hadoop - 如何将作业提交到 Hadoop 中的特定节点？

我有一个包含1个主节点和5个从节点的Hadoop集群。有没有办法将工作提交给特定的一组奴隶？基本上我想做的是用许多可能性对我的应用程序进行基准测试。因此，在使用5个从属设备进行测试后，我想使用4个从属设备运行我的应用程序，然后再使用3个从属设备，依此类推。目前我所知道的唯一方法是停用一个从站并从hadoop集群中移除。但这似乎是一项乏味的任务。我想知道是否有更简单的方法来避免从集群中删除节点。谢谢。最佳答案在hadoop/conf中有一个名为“slaves”的文件，您可以在这里简单地添加或删除节点，然后重新启动dfs和mapre

交到 hadoop section 从属 mapreduce

hadoop - Sqoop 导出作业的 sqoop.export.records.per.statement 是否有限制？

有谁知道Sqoop批量导出作业的sqoop.export.records.per.statement的值是否有限制？我有非常大的数据，例如200,000,000行数据要从Impala导出到Vertica。我将得到[Vertica][VJDBC](5065)ERROR:ToomanyROScontainersexistforthefollowingprojections如果recordsperstatement设置得太低，或者java.lang.OutOfMemoryError:GC如果每个语句的记录数设置得太高，则超出开销限制。有人知道如何解决这个问题吗？谢谢!

statement records section code hadoop jdbc sqoop vertica

Hadoop:如何将作业发送到 master 和 mapreduce 上的节点？

我正在学习Hadoopmapreduce基本原理，很多东西都看不懂。一件事是作业如何从客户端发送到主节点和节点。假设我们有客户端、主服务器和两个从服务器。据我了解，Mapper类位于java类的客户端上。客户端连接到主服务器，下一步是什么？Mapper类中的代码如何传递给主节点，然后传递给节点？还是我理解错了？最佳答案如图所示，这是发生的事情:您使用hadoopjar命令在客户端上运行作业，在该命令中您传递jar文件名、类名和其他参数(例如输入和输出)客户端将获得新的应用程序ID，然后它将jar文件和其他作业资源复制到具有高复制

mapreduce 送到 section li 传递 hadoop

hadoop - 在 YARN 中为 CLI 提交的作业设置 applicationTags 属性

我想跟踪YARN中的一些相关应用程序。它们是通过命令行提交的，例如yarnjarhadoop-mapreduce-examples.jarpi10100Python有一个真正的easy-to-useYARNclient返回以下内容:finalStatus=SUCCEEDEDid=application_1458083392566_0929state=FINISHEDname=QuasiMonteCarloapplicationType=MAPREDUCEuser=awoolfordapplicationTags=[...etc...]我注意到有一个applicationTags属性。这

applicationTags hadoop code section hadoop-yarn

hadoop - 在整个集群中使用 spark-submit 运行 Spark 作业

我最近在AmazonEMR上设置了一个Spark集群，其中有1个主节点和2个从节点。我可以运行pyspark，并使用spark-submit提交作业。但是，当我创建一个独立作业时，例如job.py，我创建了一个SparkContext，如下所示:sc=SparkContext("local","AppName")这看起来不对，但我不确定该放什么。当我提交作业时，我确定它没有使用整个集群。如果我想在我的整个集群上运行一个作业，比如每个从属4个进程，我必须做什么a.)作为参数传递给spark-submitb.)在脚本本身中作为参数传递给SparkContext()。

spark-submit hadoop code section apache-spark pyspark emr amazon-emr

hadoop - Sqoop 作业无法使用 Hadoop Credential API

我已将我的数据库密码存储在HadoopCredentialProvider中。从终端导入Sqoop工作正常，成功从CredentialProvider获取密码。sqoopimport-Dhadoop.security.credential.provider.path=jceks://hdfs/user/vijay/myPassword.jceks--tablemyTable-m1--target-dir/user/vijay/output--delete-target-dir--usernamevijay--password-aliasdb2-dev-password但是当我尝试设置为

Credential hadoop vijay section code sqoop

hadoop - 如何设置 Spark 作业暂存位置

我的spark作业失败了，因为用户无权访问spark尝试写入暂存或临时数据集的目录。2017-03-1010:25:47,0928ERRORJniCommonfs/client/fileclient/cc/jni_MapRClient.cc:2072Thread:26413mkdirsfailedfor/user/cxpdiprod/.sparkStaging/application_1488190062017_14041,error13Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Us

hadoop Spark Client apache apache-spark

python - spark 作业中不存在配置单元表

我在EMR中使用HiveMetastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在SparkJob中使用同一个表时，它显示找不到表或ViewFile"/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py",line69,indecopyspark.sql.utils.AnalysisException:u"Tableorviewnotfound:`logan_test`.`salary_csv`;line1pos21;'Aggregate[unresolvedalias(count(1),None

配置单 python code section salary_csv hadoop apache-spark hive pyspark

python - 在 hadoop 上的一个流作业中使用多个映射器输入？

在java中我会使用:MultipleInputs.addInputPath(conf,path,inputFormatClass,mapperClass)为每个输入添加不同的映射器。我现在用python在hadoop中写一个streamingjob，可以做一个类似的job吗？最佳答案您可以使用multiple-input选项来指定多个输入路径:hadoopjarhadoop-streaming.jar-inputfoo.txt-inputbar.txt... 关于python-在h

射器 python section hadoop streaming

hadoop - Hadoop 完成的作业和退休的作业之间的区别

标题使问题非常清楚。为什么在jobtracker中有两个不同的部分用于完成和退休的工作？谢谢。最佳答案作业退役是jobtracker将作业持久保存到磁盘并清理内存的正常过程。您可以在theClouderablog上阅读更多详细信息:Onceajobiscompleteitiskeptinmemory(uptomapred.jobtracker.completeuserjobs.maximum)andondiskaspertheabove.Thereisaconfigurationvaluethatcontrolstheovera

退休 hadoop strong section code jobs

54 55 565758 59 60