double-submit-prevention

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

spark apache-spark StructField 34 true hadoop cluster-computing hadoop-yarn spark-submit

hadoop - HIVE 何时将字符串隐式转换为 double ？

如HIVE文档中所述https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-stringHIVE可以隐式地将STRING转换为DOUBLE。我有一个HIVE脚本，它在某些字段上连接两个表，其中有一个字段定义为STRING。不幸的是，有两条记录，一条以“0”开头，另一条不是，但其余部分相同。这会导致连接两个表时出现错误结果。在“EXPLAINSQL”中，我发现使用UDFToDouble(field)将此记录转换为double。HIVE进行这种隐式转换的可能情况有哪些

何时 hadoop section code STRING hive emr

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值？我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件，但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。最佳答案找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖，然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

行时 spark-submit section spark hadoop apache-spark

使用 spark-submit 时出现 Hadoop 错误

我正在尝试通过以下方式使用Amazonec2进行spark-submit:spark-submit--packagesorg.apache.hadoop:hadoop-aws:2.7.1--masterspark://amazonaws.comSimpleApp.py我最终遇到了以下错误。好像是在找hadoop。我的ec2集群是使用spark-ec2命令创建的。IvyDefaultCachesetto:/home/adas/.ivy2/cacheThejarsforthepackagesstoredin:/home/adas/.ivy2/jars::loadingsettings::u

时出 spark-submit hadoop hadoop-aws apache apache-spark amazon-ec2 spark-ec2

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题，如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因，这样做只会在主节点上运行它，尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题？作为引用，我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

有节 spark-submit spark INFO hadoop python apache-spark pyspark

hadoop - 使用 --proxy-user、--keytab 和 --principal 参数在 hadoop kerberos 中提交 spark-submit

只是想得到澄清，如果spark-submit--keytab--principal&&--proxy-user参数可以共存吗？我们要求以真实的业务用户身份提交作业，但该用户在hadoopkdc中没有主体。每当同时使用proxy-user和kerberosprincipal时，我都会遇到异常。17/02/0913:51:43INFODFSClient:CreatedHDFS_DELEGATION_TOKENtoken379foratlason10.12.118.92:8020Exceptioninthread"main"java.io.IOException:java.lang.refl

hadoop spark-submit apache scala spark apache-spark kerberos

hadoop - IMPLICIT_CAST_TO_DOUBLE 警告 : Pig

在我处理Pig的问题过程中，我生成了一个转换文件，其记录如下所示:(0131228,-1.9,12.8)(0131229,12.8,30.4)(0131230,20.6,32.3)(0131231,21.0,32.4)我已将中间值(Max_Temp)和结束值(Min_Temp)转换为两倍。B1=LOAD'/tmp/PigLoadSandstoneData/part-m-00000'USINGPigStorage(',')AS(Dated:CHARARRAY,Min_Temp:DOUBLE,Max_Temp:DOUBLE);我想根据我正在使用以下语句进行的比较来过滤掉结果:X=filte

IMPLICIT_CAST_TO_DOUBLE IMPLICIT code section Temp hadoop apache-pig cloudera

hadoop - hive - double

我一直在研究hive，发现了一些奇怪的东西。基本上，当使用double作为列的数据类型时，我们不需要指定任何精度(hive根据值动态获取精度)。但是，问题来了。每当我的值是小数点后的2和7时，我看到返回值也会改变精度的位数。让我用我的简单示例来阐明这一点。hive>selectcast('34.2234'+'32.6554'-3.1asdouble);OK63.7788TimeTaken0.077seconds,Fetched:1row(s)当我在小数点后使用1(减法时3.1中的1)时，我可以看到结果似乎不错。但是当减去3.2或3.7时，我看到以下变化使用3.2时hive>select

hadoop double code section hive

hadoop - spark Yarn模式如何从spark-submit获取applicationId

当我使用带有masteryarn和部署模式集群的spark-submit提交spark作业时，它不会打印/返回任何applicationId，作业完成后我必须手动检查MapReducejobHistory或sparkHistoryServer以获取作业详细信息.我的集群被许多用户使用，需要花费大量时间才能在jobHistory/HistoryServer中发现我的工作。有没有办法配置spark-submit返回applicationId？注意:我发现了许多类似的问题，但他们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索applicationId，

spark applicationId section hadoop apache-spark mapr spark-submit

java - Hive JSON SerDe -- ClassCastException : java. lang.Integer 无法转换为 java.lang.Double

我正在尝试使用HiveJSONSerDe将TwitterJSON放入Hive表中。我首先将JSON导入到一个由ROWFORMATSERDE定义的表中，然后将其导入到另一个存储为RCFile的表中。它工作到一定程度，但随后我得到以下性质的ClassCastException:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingrow[Errorgettingrowdatawithexceptionjava.lang.ClassC

java ClassCastException string struct profile json hadoop hive cloudera