spark-submit

apache-spark - 无法通过 Spark 程序将文件写入谷歌云集群

两天后无法通过Spark程序将文件写入Google云集群。早些时候它运行良好，但现在每当我启动我的集群时，我都会看到大约200个工作已经由一个名叫dr.who的人提交了。我还尝试调用GoogleHome支持，但无法联系到他们并与之交谈。最佳答案您可以使用IdentityandAccessManagement(IAM)管理用户和权限。如果您看到用户帐户dr.who，但不承认授予他们提交作业的权限，您可以删除该帐户。关于apache-spark-无法通过Spark程序将文件写入谷歌云集

歌云 apache-spark section stackoverflow https hadoop google-cloud-platform google-compute-engine

apache-spark - 如何优化将 150GB 数据加载到配置单元表中？

我在使用以下表属性的配置单元阶段表中有一个150GB的文件ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"="|","quoteChar"="'","escapeChar"="\\")STOREDASTEXTFILE;现在，当我将这些数据加载到我的主表中时，它在运行一小时后失败并出现java堆错误。我正在使用分区主表，数据中大约有12000个分区。为了加载数据，我使用简单的hql:insertoverwritemainTablepartition(d

配置单 apache-spark section hive hive-hcatalog-server hadoop memory cloudera

scala - 为什么 lines.map 不起作用，但 lines.take.map 在 Spark 中起作用？

我是Scala和Spark的新手。我正在练习SparkHdfsLR.scalacode.但是我在这段代码中遇到了问题:60vallines=sc.textFile(inputPath)61valpoints=lines.map(parsePoint_).cache()62valITERATIONS=args(2).toInt第61行不起作用。在我把它改成这样之后:60vallines=sc.textFile(inputPath)61valpoints=lines.take(149800).map(parsePoint_)//149800isthetotalnumberoflines62

lines map spark scala DAGScheduler hadoop machine-learning apache-spark

斯卡拉 Spark /鲨鱼 : How to access existing Hive tables in Hortonworks?

我正在尝试查找有关该主题的方法的一些文档/描述，请帮忙。我安装了Hortonworks的Hadoop2.2.0以及一些我需要查询的现有Hive表。HiveSQL在单个节点和集群上的运行速度极慢且不合理。我希望鲨鱼能更快地工作。从Spark/Shark文档中我无法弄清楚如何让Shark与现有的Hive表一起工作。任何想法如何实现这一目标？谢谢! 最佳答案您需要在特定于shark的配置单元目录中配置Metastore。在我回答的类似问题中提供了详细信息here.总而言之，您需要将hive-default.xml复制到hive-site

斯卡拉斯卡 gt lt property scala hadoop hive apache-spark shark-sql

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件？

列出Spark本地可用的所有文件名的最有效方法是什么？我正在使用ScalaAPI，但是，Python也应该没问题。最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

python section dirs FileSystem scala hadoop apache-spark

hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto)

我正在使用spark来处理数据。但是我不知道如何将新数据保存到Hive我从Hive加载rdd，然后运行map函数来清理数据。result=myRdd.map(lambdax:cleanup(x))我想将结果保存到Hive中的新表中。所以我用result.insertInto("newTable",True)我收到错误:'PipelinedRDD'objecthasnoattribute'insertInto'如何将结果转换为rdd以使用insertInto函数？我也想知道还有其他方法可以完成这项任务吗？最佳答案我找到了答案f

rdd 何在 code section insertInto hadoop mapreduce hive apache-spark

hadoop - Spark 上的 Apache pig

我正在使用hadoop2.2.0、cassandra2.0.6、pig0.12和spark1.0.1。我正在使用Pig使用CassandraStorage处理程序从cassandra读取数据并进行分析操作。我知道spark接受hadoop输入格式(pig)数据。所以我想通过pig查询将读取的数据传递给spark。我该怎么做，有什么建议吗？最佳答案您可以将数据存储在HDFS中，然后从Spark中读取。Spark实际上是从HDFS读取的。如果您在Spark中使用名称而不是索引(作为Pig中的别名)，您可以创建一个案例类来提供名称。

hadoop Apache section Spark cassandra apache-pig apache-spark

java - 在网络应用程序中使用 apache spark 作为缓存

我的任务是在我的Web应用程序中使用Spark作为缓存，我浏览了其文档中共享的示例Java代码并能够独立运行它。但是当我在我的webapp中初始化它时(在servletinit()中)也尝试在spring上下文中初始化它但是无论哪种方式都失败了。我正在使用ApacheSpark1.1.0，它使用Hadoop2.4的预构建包(spark-assembly-1.1.0-hadoop2.4.0.jar)我的初始化()init(){System.out.println("BaseServiceinitialized");SparkConfconf=newSparkConf().setAppNa

apache spark section servlet java caching hadoop apache-spark

hadoop - Apache spark - 处理自动更新输入

我是spark的新手，最近经常使用它来进行一些批处理。目前我有一个新要求，并且一直在研究如何处理它。我有一个必须处理的文件，但该文件可以定期更新。我希望处理初始文件，并且当文件有更新时，我希望触发spark操作，这次应该只对更新的部分进行操作。任何解决这个问题的方法都会有所帮助。一个我愿意将任何其他技术与spark结合使用。这些文件通常位于文件系统中，大小可能为数GB。最佳答案 Spark无法单独识别文件是否已更新。它在第一次读取文件时完成它的工作，仅此而已。默认情况下，Spark不知道文件已更新，也不知道文件的哪些部分是更新的。

hadoop Apache section spark stackoverflow bigdata apache-spark

sql - Spark SQL 超时

我正在尝试在Spark独立集群上运行一个相对简单的SparkSQL命令selecta.name,b.name,s.scorefromscoresinnerjoinAaona.id=s.a_idinnerjoinBbonb.id=s.b_idwherepmod(a.id,3)!=3andpmod(b.id,3)!=0表格大小如下A:25,000B:2,500,000score:25,000,000因此，据此我希望得到25,000,000行的结果。我想用SparkSQL运行这个查询，然后处理每一行。这是相关的Spark代码valsqlContext=newHiveContext(sc)va

Spark sql scala apache hadoop hive apache-spark apache-spark-sql

207 208 209210211 212 213