double-submit-prevention

hadoop - spark-submit 不使用 YARN

我已经使用YARN设置了一个5节点的hadoop集群，Spark也设置在所有5个节点上。我正在使用spark-1.5.0-cdh5.5.0当我运行时spark-shell--masteryarn--num-executors3这会按预期启动一个shell，并使用yarn从RM获取资源。所以，我猜spark正在按预期使用hadoopconf文件。但是当我做spark-submit时spark-submitword_count.py--masteryarn-cluster--num-executors3这是尝试连接到sparkmaster，据信在yarn上运行时不需要这样做。错误如下:16

java - 带有 --jars 的 spark-submit yarn-cluster 不起作用？

我正在尝试通过以下命令向CDHyarn集群提交一个spark作业我尝试了几种组合，但都不行......我现在所有的poijar都位于我的本地/root以及HDFS/user/root/lib中，因此我尝试了以下操作spark-submit--masteryarn-cluster--class"ReadExcelSC"./excel_sc.jar--jars/root/poi-3.12.jars,/root/poi-ooxml-3.12.jar,/root/poi-ooxml-schemas-3.12.jarspark-submit--masteryarn-cluster--class"

spark-submit yarn-cluster jars section jar java hadoop apache-spark hadoop-yarn cloudera-cdh

postgresql - Sqoop+PostgreSQL : how to prevent quotes around table name

我正在尝试将一个表从Postgresql导入到HDFS上的一个Parquet文件。这是我的做法:sqoopimport\--connect"jdbc:postgresql://pg.foo.net:5432/bar"\--usernameuser_me--password$PASSWORD\--tablefoo.bar\--target-dir/user/me/bar\--as-parquetfile我明白了INFOmanager.SqlManager:ExecutingSQLstatement:SELECTt.*FROM"foo.bar"AStLIMIT1ERRORmanager.S

postgresql code section bar hadoop jdbc sqoop cloudera-cdh

hadoop - YARN "Fair Scheduler"如何使用spark-submit配置参数

我有一个关于YARN“FairScheduler”的基本问题。根据thedefinition“公平调度程序-公平调度是一种将资源分配给应用程序的方法，以便所有应用程序平均随着时间的推移获得相等的资源份额”。以下是我的理解和疑问。(1)如果多个应用程序在YARN上运行，那么它将确保所有应用程序在一段时间内或多或少地获得相等的资源份额。(2)我的问题是，如果在YARN中这个属性设置为true那么如果我们在提交spark-submit时使用以下配置会有什么不同吗？(i)driver-memory(ii)executor-memory(iii)num-executors(iv)executor

spark-submit Scheduler section 资源量 strong hadoop apache-spark hadoop-yarn

hadoop - spark-submit 如何设置user.name

要设置mapreduce.job.user.name=myuser尝试过spark-submit--classcom.MyClass--confmapreduce.job.user.name=myuser\--confspark.mapreduce.job.user.name=myuser\--masteryarn\--deploy-modecluster\也试过--confuser.name在SparkUI环境中显示user.nameyarn 最佳答案在Spark3中，将SPARK_USER设置为系统属性。https://git

spark-submit hadoop section code spark apache-spark hadoop2

hadoop - 在 YARN 上运行 Spark-Submit 但不平衡(只有 1 个节点在工作)

我尝试在YARN-CLUSTER(2个节点)上运行SparkApps但似乎这2个节点不平衡，因为只有1个节点在工作而另一个不工作.我的脚本:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--deploy-modecluster--num-executors2--driver-memory1G--executor-memory1G--executor-cores2spark-examples-1.6.1-hadoop2.6.0.jar1000我看到我的一个节点正在工作，但另一个没有，所以这是

Spark-Submit 不平 section strong code hadoop apache-spark cluster-computing hadoop-yarn

hadoop - Apache Hadoop 中的 job.submit 和 job.waitForComplete 有什么区别？

我已经阅读了文档，所以我知道其中的区别。但我的问题是，如果我想在集群上并行运行多个Hadoop作业，使用.submit而不是.waitForComplete是否有任何风险？我主要使用ElasticMapReduce。当我尝试这样做时，我注意到只有第一个作业被执行。最佳答案如果您的目标是并行运行作业，那么使用job.submit()肯定没有风险。job.waitForCompletion存在的主要原因是它的方法调用仅在作业完成时返回，并且返回成功或失败状态，可用于确定要运行的进一步步骤或不是。现在，回过头来看，您只看到第一个作业正

waitForComplete job section code stackoverflow hadoop amazon-emr

hadoop - Hive:当插入分区表时，在大多数行中，hive double url-encode partition key column

我创建了一个分区表:createtablet1(amountdouble)partitionedby(events_partition_keystring)storedaspaquet;向tmp_table添加了一些数据，其中'events_partition_key'列包含以下格式的时间戳(字符串类型):“2018-02-2500:00:00”然后我向分区表中插入一些数据。insertintotablet1partition(events_partition_key)selectamount,events_partition_keyfromtmp_table当从新的分区表t1中选择时

url-encode partition events_partition_key section hadoop hive apache-spark-sql hadoop-partitioning

hadoop - 在 PIG 中将 Chararry 类型转换为 double 的异常

我有一个示例输入作为制表符分隔的键，值对如下B_1001@2012-06-1596.73429163933419@0.5511284347710459B_1001@2012-06-18187.4348199976547@0.5544551559243536B_1002@2012-09-26745.4912066349087@0.8398570478932768B_1002@2012-09-2860.97117969729124@0.8500267379723409然后我将这个文件加载到pig中并执行以下操作a=load'/home/HadoopUser/Desktop/a.txt'as

Chararry hadoop chararray double code mapreduce apache-pig

hadoop - 使用 --master yarn-cluster : issue with spark-assembly 运行 spark-submit

我在基于Kerberos的集群上运行Spark1.1.0、HDP2.1。我可以使用--masteryarn-client成功运行spark-submit，并且结果已正确写入HDFS，但是，该作业没有显示在HadoopAllApplications页面上。我想使用--masteryarn-cluster运行spark-submit但我仍然收到此错误:appDiagnostics:Applicationapplication_1417686359838_0012failed2timesduetoAMContainerforappattempt_1417686359838_0012_0000

spark spark-assembly section spark-submit hadoop apache-spark hadoop-yarn

128 129 130131132 133 134