草庐IT

spark-submit

全部标签

apache-spark - 无法通过 Spark 程序将文件写入谷歌云集群

两天后无法通过Spark程序将文件写入Google云集群。早些时候它运行良好,但现在每当我启动我的集群时,我都会看到大约200个工作已经由一个名叫dr.who的人提交了。我还尝试调用GoogleHome支持,但无法联系到他们并与之交谈。 最佳答案 您可以使用IdentityandAccessManagement(IAM)管理用户和权限。如果您看到用户帐户dr.who,但不承认授予他们提交作业的权限,您可以删除该帐户。 关于apache-spark-无法通过Spark程序将文件写入谷歌云集

apache-spark - 如何优化将 150GB 数据加载到配置单元表中?

我在使用以下表属性的配置单元阶段表中有一个150GB的文件ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"="|","quoteChar"="'","escapeChar"="\\")STOREDASTEXTFILE;现在,当我将这些数据加载到我的主表中时,它在运行一小时后失败并出现java堆错误。我正在使用分区主表,数据中大约有12000个分区。为了加载数据,我使用简单的hql:insertoverwritemainTablepartition(d

scala - 为什么 lines.map 不起作用,但 lines.take.map 在 Spark 中起作用?

我是Scala和Spark的新手。我正在练习SparkHdfsLR.scalacode.但是我在这段代码中遇到了问题:60vallines=sc.textFile(inputPath)61valpoints=lines.map(parsePoint_).cache()62valITERATIONS=args(2).toInt第61行不起作用。在我把它改成这样之后:60vallines=sc.textFile(inputPath)61valpoints=lines.take(149800).map(parsePoint_)//149800isthetotalnumberoflines62

斯卡拉 Spark /鲨鱼 : How to access existing Hive tables in Hortonworks?

我正在尝试查找有关该主题的方法的一些文档/描述,请帮忙。我安装了Hortonworks的Hadoop2.2.0以及一些我需要查询的现有Hive表。HiveSQL在单个节点和集群上的运行速度极慢且不合理。我希望鲨鱼能更快地工作。从Spark/Shark文档中我无法弄清楚如何让Shark与现有的Hive表一起工作。任何想法如何实现这一目标?谢谢! 最佳答案 您需要在特定于shark的配置单元目录中配置Metastore。在我回答的类似问题中提供了详细信息here.总而言之,您需要将hive-default.xml复制到hive-site

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件?

列出Spark本地可用的所有文件名的最有效方法是什么?我正在使用ScalaAPI,但是,Python也应该没问题。 最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto)

我正在使用spark来处理数据。但是我不知道如何将新数据保存到Hive我从Hive加载rdd,然后运行​​map函数来清理数据。result=myRdd.map(lambdax:cleanup(x))我想将结果保存到Hive中的新表中。所以我用result.insertInto("newTable",True)我收到错误:'PipelinedRDD'objecthasnoattribute'insertInto'如何将结果转换为rdd以使用insertInto函数?我也想知道还有其他方法可以完成这项任务吗? 最佳答案 我找到了答案f

hadoop - Spark 上的 Apache pig

我正在使用hadoop2.2.0、cassandra2.0.6、pig0.12和spark1.0.1。我正在使用Pig使用CassandraStorage处理程序从cassandra读取数据并进行分析操作。我知道spark接受hadoop输入格式(pig)数据。所以我想通过pig查询将读取的数据传递给spark。我该怎么做,有什么建议吗? 最佳答案 您可以将数据存储在HDFS中,然后从Spark中读取。Spark实际上是从HDFS读取的。如果您在Spark中使用名称而不是索引(作为Pig中的别名),您可以创建一个案例类来提供名称。

java - 在网络应用程序中使用 apache spark 作为缓存

我的任务是在我的Web应用程序中使用Spark作为缓存,我浏览了其文档中共享的示例Java代码并能够独立运行它。但是当我在我的webapp中初始化它时(在servletinit()中)也尝试在spring上下文中初始化它但是无论哪种方式都失败了。我正在使用ApacheSpark1.1.0,它使用Hadoop2.4的预构建包(spark-assembly-1.1.0-hadoop2.4.0.jar)我的初始化()init(){System.out.println("BaseServiceinitialized");SparkConfconf=newSparkConf().setAppNa

hadoop - Apache spark - 处理自动更新输入

我是spark的新手,最近经常使用它来进行一些批处理。目前我有一个新要求,并且一直在研究如何处理它。我有一个必须处理的文件,但该文件可以定期更新。我希望处理初始文件,并且当文件有更新时,我希望触发spark操作,这次应该只对更新的部分进行操作。任何解决这个问题的方法都会有所帮助。一个我愿意将任何其他技术与spark结合使用。这些文件通常位于文件系统中,大小可能为数GB。 最佳答案 Spark无法单独识别文件是否已更新。它在第一次读取文件时完成它的工作,仅此而已。默认情况下,Spark不知道文件已更新,也不知道文件的哪些部分是更新的。

sql - Spark SQL 超时

我正在尝试在Spark独立集群上运行一个相对简单的SparkSQL命令selecta.name,b.name,s.scorefromscoresinnerjoinAaona.id=s.a_idinnerjoinBbonb.id=s.b_idwherepmod(a.id,3)!=3andpmod(b.id,3)!=0表格大小如下A:25,000B:2,500,000score:25,000,000因此,据此我希望得到25,000,000行的结果。我想用SparkSQL运行这个查询,然后处理每一行。这是相关的Spark代码valsqlContext=newHiveContext(sc)va