sparking

斯卡拉 Spark /鲨鱼 : How to access existing Hive tables in Hortonworks?

我正在尝试查找有关该主题的方法的一些文档/描述，请帮忙。我安装了Hortonworks的Hadoop2.2.0以及一些我需要查询的现有Hive表。HiveSQL在单个节点和集群上的运行速度极慢且不合理。我希望鲨鱼能更快地工作。从Spark/Shark文档中我无法弄清楚如何让Shark与现有的Hive表一起工作。任何想法如何实现这一目标？谢谢! 最佳答案您需要在特定于shark的配置单元目录中配置Metastore。在我回答的类似问题中提供了详细信息here.总而言之，您需要将hive-default.xml复制到hive-site

斯卡拉斯卡 gt lt property scala hadoop hive apache-spark shark-sql

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件？

列出Spark本地可用的所有文件名的最有效方法是什么？我正在使用ScalaAPI，但是，Python也应该没问题。最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

python section dirs FileSystem scala hadoop apache-spark

hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto)

我正在使用spark来处理数据。但是我不知道如何将新数据保存到Hive我从Hive加载rdd，然后运行map函数来清理数据。result=myRdd.map(lambdax:cleanup(x))我想将结果保存到Hive中的新表中。所以我用result.insertInto("newTable",True)我收到错误:'PipelinedRDD'objecthasnoattribute'insertInto'如何将结果转换为rdd以使用insertInto函数？我也想知道还有其他方法可以完成这项任务吗？最佳答案我找到了答案f

rdd 何在 code section insertInto hadoop mapreduce hive apache-spark

hadoop - Spark 上的 Apache pig

我正在使用hadoop2.2.0、cassandra2.0.6、pig0.12和spark1.0.1。我正在使用Pig使用CassandraStorage处理程序从cassandra读取数据并进行分析操作。我知道spark接受hadoop输入格式(pig)数据。所以我想通过pig查询将读取的数据传递给spark。我该怎么做，有什么建议吗？最佳答案您可以将数据存储在HDFS中，然后从Spark中读取。Spark实际上是从HDFS读取的。如果您在Spark中使用名称而不是索引(作为Pig中的别名)，您可以创建一个案例类来提供名称。

hadoop Apache section Spark cassandra apache-pig apache-spark

java - 在网络应用程序中使用 apache spark 作为缓存

我的任务是在我的Web应用程序中使用Spark作为缓存，我浏览了其文档中共享的示例Java代码并能够独立运行它。但是当我在我的webapp中初始化它时(在servletinit()中)也尝试在spring上下文中初始化它但是无论哪种方式都失败了。我正在使用ApacheSpark1.1.0，它使用Hadoop2.4的预构建包(spark-assembly-1.1.0-hadoop2.4.0.jar)我的初始化()init(){System.out.println("BaseServiceinitialized");SparkConfconf=newSparkConf().setAppNa

apache spark section servlet java caching hadoop apache-spark

hadoop - Apache spark - 处理自动更新输入

我是spark的新手，最近经常使用它来进行一些批处理。目前我有一个新要求，并且一直在研究如何处理它。我有一个必须处理的文件，但该文件可以定期更新。我希望处理初始文件，并且当文件有更新时，我希望触发spark操作，这次应该只对更新的部分进行操作。任何解决这个问题的方法都会有所帮助。一个我愿意将任何其他技术与spark结合使用。这些文件通常位于文件系统中，大小可能为数GB。最佳答案 Spark无法单独识别文件是否已更新。它在第一次读取文件时完成它的工作，仅此而已。默认情况下，Spark不知道文件已更新，也不知道文件的哪些部分是更新的。

hadoop Apache section spark stackoverflow bigdata apache-spark

sql - Spark SQL 超时

我正在尝试在Spark独立集群上运行一个相对简单的SparkSQL命令selecta.name,b.name,s.scorefromscoresinnerjoinAaona.id=s.a_idinnerjoinBbonb.id=s.b_idwherepmod(a.id,3)!=3andpmod(b.id,3)!=0表格大小如下A:25,000B:2,500,000score:25,000,000因此，据此我希望得到25,000,000行的结果。我想用SparkSQL运行这个查询，然后处理每一行。这是相关的Spark代码valsqlContext=newHiveContext(sc)va

Spark sql scala apache hadoop hive apache-spark apache-spark-sql

hadoop - Apache Spark : Error on JavaSparkContext. 停止()

当我的spark程序调用JavaSparkContext.stop()时，出现如下错误。14/12/1116:24:19INFOMain:sc.stop{14/12/1116:24:20ERRORConnectionManager:CorrespondingSendingConnectiontoConnectionManagerId(cluster02,38918)notfound14/12/1116:24:20ERRORSendingConnection:ExceptionwhilereadingSendingConnectiontoConnectionManagerId(clust

JavaSparkContext hadoop ConnectionManager ConnectionManagerId 12 apache-spark hadoop-yarn

scala - 如何用Spark写程序替换word

Hadoop很容易使用.replace()例如String[]valArray=value.toString().replace("\N","")但它在Spark中不起作用，我在Spark-shell中编写Scala，如下所示valoutFile=inFile.map(x=>x.replace("\N",""))那么，如何处理呢？最佳答案由于某些原因，您的x是一个Array[String]。你是怎么得到它的？如果你愿意，你可以.toString.replace它，但这可能不会得到你想要的东西(并且无论如何都会在java中给出错误

何用 scala code section replace hadoop apache-spark

hadoop - 在 Mesos 0.21.0 上使用 Hadoop 2.3.0 产生 Spark ，从站上出现错误 "sh: 1: hadoop: not found"

我正在Mesos0.21.0上使用Hadoop2.3.0设置spark。当我在主机上尝试spark时，我从mesosslave的stderr收到这些错误消息:WARNING:LoggingbeforeInitGoogleLogging()iswrittentoSTDERRI122912:34:45.9236658571fetcher.cpp:76]FetchingURI'hdfs://10.170.207.41/spark/spark-1.2.0.tar.gz'I122912:34:45.9252408571fetcher.cpp:105]Downloadingresourcefrom

hadoop 站上 spark 701475338 section apache-spark mesos

195 196 197198199 200 201