sparking

java - Spark 2.0.0 抛出 AlreadyExistsException(消息 :Database default already exists) when interact with Hive 1. 0.0

我正在尝试使用SparkJava连接到Hive。当我通过Spark在Hive中运行任何查询时，它会返回如下异常:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalreadyexists)我的版本是:星火2.0.0hive1.0.0这是我的全部堆栈:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalr

hadoop - 无法在 HUE oozie 中运行 spark 作业。异常 : "datanucleus-api-jdo-3.2.1.jar does not exist"

我想知道的是spark如何/在哪里挑选所需的jar。文件:/mnt/md0/yarn/nm/usercache/kylin/appcache/application_1468506830246_161908/container_1468506830246_161908_01_000001/datanucleus-api-jdo-3.2.1.jar不存在。--num-executors30--executor-memory18g--executor-cores15--driver-memory2g--fileshdfs:///jobs/kylin/hive-site.xml--jarsd

中运 datanucleus-api-jdo spark strong section hadoop apache-spark hadoop-yarn oozie hue

hadoop - Spark 在本地主机上监听

我在没有公共(public)DNS的机器集群上安装了spark(刚刚在云上创建了机器)。Hadoop看起来已安装并正常工作，但Sparks将7077和6066监听为127.0.0.1而不是公共(public)ip，因此工作节点无法连接到它。怎么了？我在主节点上的/etc/hosts看起来像:127.0.1.1namenodenamenode127.0.0.1localhostXX.XX.XX.XXnamenode-publicYY.YY.YY.YYhadoop-2ZZ.ZZ.ZZ.ZZhadoop-1我的$SPARK_HOME/conf/spark-env.sh看起来像:exportJ

机上 hadoop section code namenode apache-spark

hadoop - 使用 spark sql 加载到配置单元后无法看到 hdfs 文件

我正在尝试使用以下查询使用sparksql将文件从hdfs加载到配置单元中。hiveContext.sql("CREATEEXTERNALTABLEIFNOTEXISTSsrc(valueSTRING)")hiveContext.sql("LOADDATAINPATH'/data/spark_test/kv1.txt'INTOTABLEsrc")hiveContext.sql("FROMsrcSELECT*").collect().foreach(println)我发现，在第二条语句即加载文件之后，我在/apps/hive/warehouse/src/中看到该文件，但在/data/中找

配置单 hadoop code section hiveContext apache-spark-sql

performance - 处理大输入时 Spark 性能非常慢

我正在使用Spark(在Scala中)读取一个包含用户和他们共享的页面列表的文件，我想通过他们共享的页面找到与给定用户一定距离的所有用户。程序运行很差，我经常得到GCoverheadlimitexceeded错误。我在具有8GB内存的MacOSX上本地运行Spark。使用spark-submit提交程序带参数--driver-memory5g和通过设置分配的8个核心spark.cores.max.输入集是一个1.15GB的文件。有没有人指出哪个操作效率很低，是否有更好的替代操作？提前致谢。此处简要介绍了代码。每个用户条目都包含他/她在标签后共享的页面，每个条目由两个换行符分隔，如下所示

入时 performance code reduceByKey line scala hadoop apache-spark

scala - 使用 spark 将 null 设置为 Hive 表中数字数据类型的值

我正在寻找一种解决方案，我需要使用Spark在其中没有值的数字字段中填充null。我写的代码如下:valmyDF=sqlContext.sql("frommystg.my_acct_tableselectid,amt,tot_amtwhereid=12345")myDF.map(row=>{valrow1=row.getAs[Double]("tot_amt")valmy_tot_amt={if(row1.isNaN())null.asInstanceOf[Double]elseMath.abs(row1.toDouble)}Row(row(0),row(1),my_tot_amt)}

scala spark code row section hadoop apache-spark spark-dataframe

hadoop - 无法在 spark 中使用配置单元支持创建 sql 上下文

在Spark1.6中在我运行spark-shell时在/etc/spark/conf下创建软链接(softlink)后，它没有创建具有配置单元支持的sql上下文，并且错误---显示“nativesnappylibrarynotavailable:Thisversionofhadoopwasbuiltwithoutsnappysupport”。请指教这里可以做什么？我正在尝试创建具有配置单元支持的sql上下文，但无法这样做。最佳答案您可以使用sqlContext访问Hive表。关于h

配置单 hadoop section stackoverflow apache-spark hive

hadoop - Apache Spark 无法在 Windows 上运行

我已经下载并安装了spark-2.0.1-bin-hadoop2.7。我安装了JAVA并在系统变量中设置了JAVA_HOME。但是在运行中我有这个错误:如何修复？最佳答案我认为问题在于路径中的空格。尝试将下载的spark放入例如。F:\Msc\BigData\BigDataSeminar\Spark\还要检查SPARK_HOME、JAVA_HOME和HADOOP_HOME是否放置在没有空格的路径中。关于hadoop-ApacheSpark无法在Windows上运行，我们在Stack

Windows hadoop section strong code apache-spark installation

amazon-web-services - 是否可以通过 EMR(通过 VPC)查看 Spark UI？

我已经完成了https://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide/emr-ssh-tunnel-local.html中描述的过程通过本地端口转发打开ssh隧道，然后转到http://localhost:8157/.这将打开Hadoop/YARN界面，此时我单击TrackingUI/ApplicationMaster链接，并收到“找不到此站点的服务器DNS”页面。根据AWS文档http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/em

amazon-web-services services ElasticMapReduce section amazon hadoop apache-spark

scala - 如何捕获 Spark 异常并做某事？

当我将数据保存到hdfs失败时，如何捕获异常并在catchblock中执行某些操作。像这样:try{item.map(r=>doSome(r).saveAsTextFiles(outputPath+"/data")}catch{casee:Exception=>{valfailMessage="Exceptionfromoutputpart"+e.getClass+"\t"+e.getMessageprintln("Theexceptionisexecuted")update(aaa)}}finally{mc.close()}我想在保存操作抛出异常时更新一些状态。怎么做？

某事 scala section 34 Exception hadoop apache-spark

172 173 174175176 177 178