sparking_草庐IT

hadoop - Spark on Yarn 作业失败，退出代码为 :1 and stderr says "Can' t find main class"

我们尝试将一个简单的SparkPI示例提交到SparkonYarn。bat写法如下:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory4g--executor-memory1g--executor-cores1.\examples\target\spark-examples_2.10-1.4.0.jar10pause我们的HDFS和Yarn运行良好。我们正在使用Hadoop2.7.0和Spark1.4.1。我们只有1个节

bash - Hadoop Yarn 上的 Spark 安装

请有人帮助我，我正在尝试在HaoopYarn上安装spark，但出现此错误:org.apache.spark.SparkException:Yarnapplicationhasalreadyended!Itmighthavebeenkilledorunabletolaunchapplicationmaster.atorg.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:113)atorg.apache.spark.s

Hadoop Spark HADOOP_INSTALL export bash apache-spark hadoop-yarn

scala - 如何连接到 Pivotal HD(来自 Spark)？

我想知道将Spark应用程序连接到PivotalHD(一种Hadoop实现)的方法。使用Spark连接到它的最佳方式是什么？valjdbcDataFrame=sqlContext.read.format("jdbc").options(Map("url"->"jdbc:postgresql:dbserver","dbtable"->"schema.tablename")).load() 最佳答案我看到您的问题已被编辑，但我会尽力回答您的所有问题。PivotalHD(以前称为GreenplumHD)是一个Hadoop发行版，因此您应

Pivotal scala Greenplum section hadoop apache-spark hawq

hadoop - 为什么 Spark 选择在 shuffle 阶段通过网络发送数据而不是写入 HDFS 上的某个位置？

据我所知，spark尝试通过网络将数据发送到另一个节点的内存缓冲区，如果它不适合内存则溢出到磁盘，为什么spark不能从任何节点可以写入的地方写入HDFS读？最佳答案将其写入磁盘的传输速度要慢得多。最重要的是，您保证会产生在感兴趣的节点之间同步磁盘访问的开销。关于hadoop-为什么Spark选择在shuffle阶段通过网络发送数据而不是写入HDFS上的某个位置？，我们在StackOverflow上找到一个类似的问题： https://stackover

shuffle hadoop section stackoverflow questions apache-spark bigdata cloudera

hadoop - 如何在 spark 上的 hive 中设置 spark RDD StorageLevel？

在我的hiveonspark作业中，出现此错误:org.apache.spark.shuffle.MetadataFetchFailedException:缺少shuffle0的输出位置感谢您的回答(WhydoSparkjobsfailwithorg.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0inspeculationmode?)，我知道这可能是我的hiveonspark作业有同样的问题由于hive将sql转换为hiveonspark作业，我不知道如何在hive

中设 spark section apache hadoop apache-spark hive hiveql

java - 在集群模式下将 Spark 从 eclipse 部署到 YARN 时出错

我正在尝试将ApacheSparkPi示例从Eclipse部署到HadoopYARN。我正在使用3个带有Linux的虚拟机运行自己的集群。集群中的Hadoop版本为2.7.2，Spark为1.6.0，并预构建了Hadoop2.6.0及更高版本。我能够从节点运行Pi示例，但是当我想从Windows上的eclipse(yarn集群模式)运行javaPi示例时，出现如下所示的错误。我发现有几个线程出现此错误，但其中大部分是针对带有一些额外变量的cloudera或hortonwork，或者没有解决我的问题。我还尝试了YARN客户端模式，结果相同。有人可以帮助我吗？Eclipse控制台输出:16

时出 eclipse application hadoop 1456222391080 java apache-spark hadoop-yarn

java - 由于某些未知原因，Spark 作业在 saveAsHadoopDataset 阶段失败，因为执行器丢失

我有一个在yarn上运行的spark作业，它处理大约150gb的数据集，并进行多次随机播放操作，最后将数据存储到hbase中。它在saveAsHadoopDataset处一直失败基本上，多个执行程序在报告高GCActivity后在此阶段失败。但是，执行程序日志、驱动程序日志或节点管理器日志均未指示任何OutOfMemory错误或GCOverheadExceeded错误或超出内存限制错误。我在sparkui中也没有看到执行器失败的任何其他原因。valhConf=HBaseConfiguration.createhConf.setInt("hbase.client.scanner.cach

saveAsHadoopDataset Spark AbstractChannelHandlerContext java scala hadoop apache-spark

hadoop - 管理报告，当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者？

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告，根据其基本原理，完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字，发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用，但是，我不明白它最终是否使用Hadoop。我会有很多报告，至少需要索引和分组。但是我不想使用额外的表来增加开销。而且，我是.Net(而非Java)开发人员，我的应用程序也基于.NetFramework。

Cassandra 两者 strong section hadoop solr apache-spark apache-hive

hadoop - yarn模式提交spark应用时出现异常

异常:java.lang.NoSuchMethodError:org.apache.http.client.utils.URLEncodedUtils.parse(Ljava/lang/String;Ljava/nio/charset/Charset;)Ljava/util/List; 最佳答案这是库版本冲突的情况。你应该检查几件事:你的运行时类路径是什么，特别是检查来自hadoop安装的库。如果有的话，你的fat-jar带来了哪些图书馆。您使用--jar选项添加的库。您还应该检查spark依赖于哪些库。一切都应该是一致的，但你的

时出 hadoop section strong apache-spark hadoop-yarn

hadoop - 无法通过 Gremlin Shell 安装 Hadoop 和 Spark

我正在尝试通过Gremlinshell安装hadoop-gremlin和spark-gremlin。我下载了Gremlinconsole3.2.0-incubating.当我运行bin/gremlin.sh时，gremlin控制台启动时没有错误。但是，我无法安装spark-gremlin或hadoop-gremlin。gremlin>:installorg.apache.tinkerpopspark-gremlin3.2.0-incubating==>ErrorgrabbingGrapes--[unresolveddependency:com.github.jeremyh#jBCryp

Gremlin hadoop 34 code apache-spark tinkerpop