spark-graphx

hadoop - 检查点在 Apache Spark 上有什么作用？

检查点对ApacheSpark有什么作用，它对RAM或CPU有何影响？最佳答案来自ApacheStreamingDocumentation-希望对您有所帮助:流式应用程序必须24/7全天候运行，因此必须能够应对与应用程序逻辑无关的故障(例如，系统故障、JVM崩溃等)。为了使这成为可能，SparkStreaming需要将足够的信息检查点到容错存储系统，以便它可以从故障中恢复。有两种类型的数据被检查点。元数据检查点-定义信息的保存将计算流式传输到HDFS等容错存储。这是用于从运行驱动程序的节点的故障中恢复流应用程序(稍后详细讨论)。

hadoop Apache section 的 li apache-spark pyspark checkpointing

hadoop - Bluemix Spark 和 Hadoop 服务配置

在Bluemix上运行HadoopBigInsights和ApacheSpark服务的配置后，我注意到Hadoop的可配置性很强。我可以选择集群中将有多少个节点以及这些节点的RAM和CPU内核节点以及硬盘空间但Spark服务似乎不太可配置。我唯一的选择是在2到30个Spark执行器之间进行选择。作为IBMIC4项目的一部分，我正在使用Bluemix来评估这些服务，因此我对此有几个问题。Spark服务是否可以像Hadoop服务一样配置？即选择节点、节点的RAM、CPU内核等。在此上下文中什么是Spark执行器？他们是节点吗？如果有，它们的规范是什么？future有计划改进Spark的配置

服务配置 Bluemix Spark section 的 hadoop apache-spark ibm-cloud

maven - Apache Spark 依赖问题

我正在尝试在Hadoop集群中运行我的spark应用程序。集群中运行的spark版本为1.3.1。在集群中打包和运行我的spark应用程序时，出现如下错误。我也查看了其他帖子，好像我搞砸了库依赖项，但无法弄清楚是什么!以下是可能对你们帮助我有帮助的其他信息:hadoop-版本:Hadoop2.7.1.2.3.0.0-2557Subversiongit@github.com:hortonworks/hadoop.git-r9f17d40a0f2046d217b2bff90ad6e2fc7e41f5e1Compiledbyjenkinson2015-07-14T13:08ZCompiled

Apache maven gt lt spark hadoop apache-spark apache-spark-sql

hadoop - 文本文件可以直接从 Spark 输出到本地文件系统吗？

使用RDD，我可以输出rdd.saveAsTextFile('directory')将文件保存在hdfs://directory中。文本文件可以直接保存到本地文件系统上的目录(即directory)吗？最佳答案当然你可以...因为saveAsTextFile('directory')将保存与你的分区程序一样多的文件，你首先需要在复制到本地之前合并文件(除非你希望将每个文件复制到本地).因此先调用FileUtil.copyMerge(sourceFileSystem,newPath(sourceFullPath),destFile

本文 hadoop section code directory apache-spark pyspark

windows - Spark Windows 安装 Java 报错

我继续上一个问题的问题-winutilssparkwindowsinstallation-我知道这个线程-HowtostartSparkapplicationsonWindows(akaWhySparkfailswithNullPointerException)?-，但我还没有找到任何可以解决我的问题的方法。我也知道有人建议使用maven或sbt从源代码构建spark。我还不想这样做，因为很多人不会从源代码构建spark并且它对他们来说很好用。到目前为止，我已经设置了以下环境变量...set_JAVA_OPTIONS=-Xmx512M-Xms512Mset_JAVA_OPTION=-X

windows spark apache scala hadoop apache-spark environment-variables read-eval-print-loop

database - Spark 中的快速条件加入

我正在尝试使用条件查询在Spark中进行快速扩充。我有两个键/值数据集:“事件数据”和“session映射”。“session映射”用于找出谁在两个时间戳之间使用给定的IP。“事件数据”是大量事件的集合，具有IP和时间戳，需要与“session映射”相关联以丰富用户名。是否有一种有效的方法可以根据Spark中的session映射或其他方式丰富事件数据？sessionmap:(IP,start_time,end_time)->Name(192.168.0.l,2016-01-0110:00:00,2016-01-0122:00:00)->John(192.168.0.l,2016-01-

database Spark 01 2016 section hadoop join apache-spark mapreduce

scala - Spark 上下文抛出 'error: identifier expected but ' [' found.'

我正在读一本书，上面说我应该能够输入sc.[\t]并得到响应。我看到的是...scala>sc.[\t]:1:error:identifierexpectedbut'['found.sc.[\t]^:1:error:identifierexpectedbut']'found.sc.[\t]这是spark1.6.1连接到hadoop2.7.2sc命令似乎有效...scala>scres1:org.apache.spark.SparkContext=org.apache.spark.SparkContext@3cead673附言我一生中从未使用过Scala。最

amp 39 code section scala hadoop apache-spark

java - 创建 spark 客户端失败 : Hive on spark exception

我已将Hive执行引擎更改为SPARK。在执行任何DML/DDL时，我都会遇到异常。hive>selectcount(*)fromtablename;QueryID=jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36Totaljobs=1LaunchingJob1outof1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.bytes.per.reducer=Inordertolimitthemaximumnumberof

spark exception section number java hadoop apache-spark

hadoop - hive 到 Hbase : wrong use case for Spark?

我最近遇到了一个关于将数据从Hive迁移到Hbase的问题。我们项目在cdh5.5.1集群上使用Spark(7个节点在SUSELinuxEnterprise上运行，具有48个内核，每个256GBRAM，hadoop2.6)。作为初学者，我认为使用Spark从Hive加载表数据是个好主意。我正在使用正确的Hive列/HbaseColumnFamily和列映射在HBase中插入数据。我找到了一些关于如何将数据批量插入Hbase的解决方案，例如我们可以使用hbaseContext.bulkPut或rdd.saveAsHadoopDataset(我测试了两者的结果相似).结果是一个功能正常的程

hadoop Hbase section field apache-spark hive

hadoop - spark 独立模式下 50-60 gb 的数据

我正在尝试分析大约50-60GB的数据。我想过使用spark来做到这一点，但我无权访问集群中的多个节点。这种级别的处理可以使用spark独立模式完成吗？如果是，我想知道处理数据所需的估计时间。谢谢! 最佳答案简短的回答:是的。Spark会将此文件分成许多较小的block。在您的情况下，一次只会执行几个block。这几个block应该适合内存(您需要使用配置来获得正确的结果)总而言之，您将能够做到，但如果您有更多的内存/核心，那么您可以并行处理更多事情，速度会更快。关于hadoop-s

hadoop spark section stackoverflow block apache-spark machine-learning statistics bigdata

52 53 545556 57 58