sparking

Maven 无法解析依赖关系 spark

我尝试构建一个简单的Java程序:JavaWordCountforspark-1.1.0。Igetthiserror:BuildingJavaWordCount1.0-SNAPSHOT[INFO]------------------------------------------------------------------------[INFO]------------------------------------------------------------------------[INFO]BUILDFAILURE[INFO]------------------------

Maven spark gt lt dependency hadoop apache-spark

hadoop - 在 Spark 中运行并行查询

spark如何处理并发查询？我已经阅读了一些关于spark和底层RDD的内容，但我无法理解如何处理并发查询？例如，如果我运行一个将数据加载到内存中的查询，并且消耗了整个可用内存，同时其他人运行一个涉及另一组数据的查询，那么spark将如何为两个查询分配内存？如果考虑优先级，还会产生什么影响。运行大量并行查询也会导致机器挂起吗？最佳答案首先，Spark占用的内存(RAM)不会超过阈值限制。Spark尝试将默认内存分配给每个作业。如果新作业的内存不足，它会尝试将LeastRecentlyUsed(LRU)RDD的内存内容溢出到磁盘，

中运 hadoop section Spark 配给 apache-spark

hadoop - 为什么 Spark 可以选择下载预构建的 MapReduce 4.x？

我刚刚开始使用Hadoop。我看到Spark是一个号称比MapReduce更快的执行引擎，所以我想尝试一下。据我了解，MapReduce也是一个执行引擎。那么为什么Spark可以选择下载为Mapreduce4.x构建的Spark？我的意思是我不明白这2个如何放在同一个堆栈中？如有任何帮助，我们将不胜感激!谢谢! 最佳答案 whydoesSparkhasanoptiontodownloadSparkbuiltforMapreduce4.x?事实并非如此。它可以选择下载为MapR4.x构建的spark。MapRiscompany开发Ha

MapReduce hadoop section Spark apache-spark

java - 如何取消Spark Hadoop RDD计算

假设我有NewHadoopRDD，其中一个拆分在计算期间失败了。有了本地运行者，我很容易看到这个过程的所有阶段。我看到任务失败，但调度程序开始下一个任务，并且仅在此通知任务失败之后。15/02/1920:58:58INFOscheduler.TaskSetManager:Startingtask1.0instage0.0(TID1,localhost,PROCESS_LOCAL,1347bytes)15/02/1920:58:58INFOexecutor.Executor:Runningtask1.0instage0.0(TID1)15/02/1920:58:58WARNschedul

Hadoop Spark code 58 scheduler java scala apache-spark cluster-computing

hadoop - 我们可以根据类型(MR、SPARK)将 hadoop 应用程序分配到公平调度程序队列中吗？

fair-scheduler是否支持基于应用类型的队列分配？就像所有SPARK作业都在Spark_Queue下，而MR作业在MR_Queue下一样。最佳答案提交/运行Spark作业时，您可以将YARN队列指定为--queue命令行参数、spark.yarn.queueSpark配置参数或SPARK_YARN_QUEUE环境变量。关于hadoop-我们可以根据类型(MR、SPARK)将hadoop应用程序分配到公平调度程序队列中吗？，我们在StackOverflow上找到一个类似的问

hadoop SPARK section stackoverflow mapreduce apache-spark

hadoop - yarn 模式下的 Spark RDD map 不允许访问变量？

我在mapr集群上安装了全新的spark1.2.1，在测试它时我发现它在本地模式下运行良好，但在yarn模式下它似乎无法访问变量，如果广播也是如此。准确的说是下面的测试代码importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfobjectJustSparkextendsApp{valconf=neworg.apache.spark.SparkConf().setAppName("SimpleApplication")valsc=new

hadoop Spark code section apache-spark mapr

scala - spark 文本文件加载文件而不是行

在Spark中，我们可以使用textFile将文件加载到行中，并尝试对这些行进行如下操作。vallines=sc.textFile("xxx")valcounts=lines.filter(line=>lines.contains("a")).count()但是，在我的情况下，我想将文件加载到block中，因为文件和block中的数据如下所示。block将在文件中用空行分隔。user:111book:222comments:likeit!因此，我希望textFile函数或任何其他解决方案可以帮助我加载带有block的文件，这可以通过以下方式实现。valblocks=sc.textFil

本文 scala code section textFile hadoop apache-spark

java - 在 Hadoop 上运行 Spark

在我的本地机器上，我安装了scala、spark、hadoop。我已经使用spark和maven完成了一个字数统计示例程序。现在我必须使用spark在Hadoop上做这些事情？我怎样才能做到这一点？？最佳答案 Here您可以找到有关如何在YARN上运行Spark的文档。这意味着Spark将使用与Hadoop发行版相同的资源管理器。相反，如果您只是想使用通过HDFS存储的文件运行Spark，那么您可以简单地以独立模式运行Spark并指定文件的hdfs://URL他必须处理。在这种情况下，您只需将Sparkmaster设置为local

Hadoop Spark section java maven apache-spark

hadoop - Spark HistoryServer 未启动

重新启动SparkHistoryServer后，它无法启动，我们正在使用CDH5.3.1和Spark1.2我检查了SparkHistoryServer的日志，发现以下消息:2015-05-2111:38:03,790WARNorg.apache.spark.scheduler.ReplayListenerBus:Logpathprovidedcontainsnologfiles.2015-05-2111:38:52,319INFOorg.apache.spark.deploy.history.HistoryServer:Registeredsignalhandlersfor[TERM,

HistoryServer hadoop scala apache java apache-spark hadoop-yarn cloudera-cdh hortonworks-data-platform

hadoop - 在 Amazon EMR 上设置 Spark 类路径

我正在尝试使用Hadoop2.4和Spark1.3.1在EMR(AMI3.6)上运行一些简单的作业。我在没有引导脚本的情况下手动安装了Spark。目前我正在尝试读取和处理来自S3的数据，但似乎我在我的类路径中丢失了无数的jar。在spark-shell上运行命令。启动shell使用:spark-shell--jarsjar1.jar,jar2.jar...在shell上运行的命令:vallines=sc.textFile("s3://folder/file.gz")lines.collect()错误总是类似于:“找不到类xyz”。找到所需的jar并将其添加到类路径后，我将再次收到此错误

hadoop Amazon section spark jar amazon-s3 apache-spark emr

220 221 222223224 225 226