force_submit_草庐IT

powershell - 尝试运行 Spark Submit、Hadoop 和其他命令行命令

我正在使用PowerShell设置一个在Windows上运行的测试实例。当实例启动并运行时，它将运行一些命令来设置Hadoop，然后运行Spark作业。当从实例本身内部手动完成时，这一切都可以正常工作。我现在正在尝试将这些命令转换为powershell。例如，这两个失败并显示它不是可识别的cmdlet或函数等消息:&$env:HADOOP_HOME+"\bin\winutils.exe"chmod777/tmp/hive&$env:HADOOP_HOME+"\bin"hadoopnamenode-format-force我收到的错误是:&:Theterm'c:\hadoop\bin

试运试运行 section code HADOOP_HOME powershell hadoop apache-spark

hadoop - 获取 java.lang.OutOfMemoryError : GC overhead limit exceeded While Submitting Map Reduce

提交mapreduce时收到以下消息。我使用-XX:MaxPermSize=128m内存大小启动我的mapreduce程序。有没有人知道现在发生了什么-17/03/2409:58:46INFOhdfs.DFSClient:CreatedHDFS_DELEGATION_TOKENtoken1160328forsvc_pffronha-hdfs:nameservice317/03/2409:58:46ERRORhdfs.KeyProviderCache:Couldnotfinduriwithkey[dfs.encryption.key.provider.uri]tocreateakeyPr

OutOfMemoryError Submitting hadoop apache java

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展，而sparkRM运算符允许进行fp-growth，从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

spark apache-spark gt lt property hadoop hadoop-yarn rapidminer resourcemanager

shell - 通过 Oozie 工作流提交的 shell 脚本中存在 Spark-submit 不起作用

通过OozieWorkflow，我提交了一个shell脚本，其中包含spark-submit命令。我通过oozie控制台在hdfs/user/admin/first.sh中上传了shell脚本。当我运行脚本直到spark-submit命令时，它运行良好。当它尝试运行spark-submitcmd时，它失败了。本地文件系统中存在spark-submit的原因，但我的脚本正在hadoop管理员用户的hadoop文件系统中运行。任何解决这个问题的方法。如何在hadoop文件系统中从hadoop用户运行本地文件系统(spark-submit)命令，或者我可以在Oozi的帮助下将脚本从hadoo

shell Spark-submit transform spark hadoop oozie oozie-workflow

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

spark apache-spark code section hadoop mapreduce hadoop-yarn spark-submit

hadoop - 在具有高可用性的 Hadoop 集群上运行 Spark-submit 时出现异常

我在具有高可用性的Hadoop集群上运行Spark-submit命令时遇到异常。以下命令在未启用HA的其他集群上运行良好。spark-submit--masteryarn-client--executor-memory4g--executor-cores2--classcom.domain.app.module.mainclasstarget/SNAPSHOT-jar-with-dependencies.jar同一命令在启用HA的集群上不起作用并抛出以下异常。Exceptioninthread"main"java.lang.AbstractMethodError:org.apache.

时出 Spark-submit hadoop section namenode apache-spark

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

spark apache-spark StructField 34 true hadoop cluster-computing hadoop-yarn spark-submit

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值？我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件，但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。最佳答案找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖，然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

行时 spark-submit section spark hadoop apache-spark

使用 spark-submit 时出现 Hadoop 错误

我正在尝试通过以下方式使用Amazonec2进行spark-submit:spark-submit--packagesorg.apache.hadoop:hadoop-aws:2.7.1--masterspark://amazonaws.comSimpleApp.py我最终遇到了以下错误。好像是在找hadoop。我的ec2集群是使用spark-ec2命令创建的。IvyDefaultCachesetto:/home/adas/.ivy2/cacheThejarsforthepackagesstoredin:/home/adas/.ivy2/jars::loadingsettings::u

时出 spark-submit hadoop hadoop-aws apache apache-spark amazon-ec2 spark-ec2

apache-spark - 如何在 "force"Hive on Spark 中使用 Map Join？

HiveonSpark不使用Map-Join查询View，该View对多个表进行联合。当使用MR引擎进行相同的查询时，使用Map-Join。我尝试按照Cloudera的建议设置各种Spark设置-https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hos_oview.html#dpp_in_hos我使用的View是一些表的简单联合，这些表都具有相同的结构并已分区。View是这样创建的:createviewmyViewasselect*fromtbl1unionallselect*fromtbl2un

何在 apache-spark code section Hive hadoop