sparking

hadoop - 有状态和无状态流 (Spark)

我知道有状态和无状态流处理之间的区别。我读到Storm是无状态的，而Trident是有状态的。我还了解到Hadoop(用于批处理)是有状态的，而Spark可以计算有状态操作。有人可以澄清一下吗？具体来说，spark能否同时执行有状态和无状态操作？Hadoop是有状态的是什么意思，因为我们在谈到Hadoop时只谈论批处理。ApacheStorm如何处理有状态流？(使用三叉戟？) 最佳答案 1-是的spark有状态和无状态操作StatefulStreamProcessingwithmapWithState有关详细信息，请参阅https:

hadoop - Spark 处理小文件(合并与 CombineFileInputFormat)

我有一个用例，我在S3中有数百万个小文件需要由Spark处理。我有两个选项来reducetask数量:1.使用合并2.扩展CombineFileInputFormat但我不清楚机器人的性能影响以及何时使用其中一个。此外，CombineFileInputFormat是一个抽象类，这意味着我需要提供我的实现。但是SparkAPI(newAPIHadoopRDD)将类名作为参数，我不确定如何传递可配置的maxSplitSize 最佳答案对于这种情况，要考虑的另一个很好的选择是SparkContext.wholeTextFiles()，它

CombineFileInputFormat hadoop section code apache-spark emr amazon-emr

hadoop - Spark 应用程序可以在独立模式下运行，但不能在 yarn 集群中运行

恩，大家好，一个困扰我很久的问题。我可以通过这个命令以独立模式运行我的spark应用spark-submit--masterspark://fuxiuyin-virtual-machine:7077test_app.py但是此应用程序无法通过此命令在yarn集群中运行spark-submit--masteryarntest_app.py我认为我的yarn簇很健康。jps的输出是$jps8289Worker14882NameNode15475ResourceManager8134Master15751NodeManager15063DataNode17212Jps15295Seconda

中运 hadoop 16 INFO spark apache-spark hadoop-yarn

hadoop - Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在Ubuntu16.04上运行hive2.1.1、hadoop2.7.3。根据HiveonSpark:GettingStarted,它说Install/buildacompatibleversion.Hiverootpom.xml'sdefineswhatversionofSparkitwasbuilt/testedwith.查看了pom.xml，spark版本是1.6.01.6.0但是HiveonSpark:GettingStarted还说PriortoSpark2.0.0:./make-distribution.sh--name"hadoop2-without-hive"--tg

Spark hadoop section apache-spark hive

java - Spark Yarn Cluster 连接到 Hbase 错误

我有一个应用程序可以解析vcf文件并将数据插入到hbase中。该应用程序在使用masterlocal时运行，使用apachespark没有问题，但是当我使用apachesparkyarncluster运行它时，出现以下错误:17/03/3110:36:09INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(state:RUNNING)17/03/3110:36:10INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(stat

Cluster Spark apache SparkSubmit java hadoop apache-spark hbase hadoop-yarn

java - 如何使用 Java 将 JavaDStream<String> 存储到 spark 中的 Hive 表？

我正在将来自Kafka服务器的消息接收到JavaDStream对象中。现在我想将消息存储到配置单元表中。我该怎么做？从Kafka流接收消息的代码片段:JavaPairReceiverInputDStreamkafkaStream=KafkaUtils.createStream(jssc,zookeperIp,consumerGroup,topic);JavaDStreammessageData=kafkaStream.map(newFunction,String>(){@OverridepublicStringcall(Tuple2message)throwsException{//T

JavaDStream amp String section java hadoop apache-spark hive spark-streaming

java - 带有 Spark 的 proto2 无法运行

我有一个语法为proto2的原型(prototype)文件另外，我需要使用Spark(2.0.2)和HBase。我的项目是使用Gradle构建的。现在，当我运行我的Java代码时，我得到这个错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage3.0failed1times,mostrecentfailure:Losttask0.0instage3.0(TID3,localhost):java.lang.NoSuchMethodError:com

proto2 Spark protobuf 39 code java hadoop apache-spark gradle protocol-buffers

scala - 捕获 Oozie 中 Spark 操作节点的控制台输出作为整个 Oozie 工作流的变量

有没有办法在Oozie中捕获spark作业的控制台输出？我想在spark作业之后的下一个操作节点中使用特定的打印值。我在想我可以使用${wf:actionData("action-id")["Variable"]}但是oozie似乎没有能力从sparkAction节点捕获输出，这与您可以使用echo"var=12345"的ShellAction不同。然后调用oozie中的wf:actionData以用作整个工作流中的Oozie变量。我想实现这一点，因为我想打印可能处理的记录数并将其存储为oozie变量，并将其用于工作流中的下一个操作节点，而无需执行任何需要您将该数据存储在外部的功能工作

Oozie scala section spark stackoverflow hadoop apache-spark

hadoop - spark Yarn模式如何从spark-submit获取applicationId

当我使用带有masteryarn和部署模式集群的spark-submit提交spark作业时，它不会打印/返回任何applicationId，作业完成后我必须手动检查MapReducejobHistory或sparkHistoryServer以获取作业详细信息.我的集群被许多用户使用，需要花费大量时间才能在jobHistory/HistoryServer中发现我的工作。有没有办法配置spark-submit返回applicationId？注意:我发现了许多类似的问题，但他们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索applicationId，

spark applicationId section hadoop apache-spark mapr spark-submit

hadoop - 当查看在 yarn 上运行的已完成 spark 作业的日志时重定向到容器的日志服务器

我在yarn上运行spark。我的spark版本是2.1.1，hadoop版本是apachehadoop2.7.3。当spark作业以集群模式在yarn上运行时，我可以通过stdout/stderr链接查看Executor的日志，如http://hadoop-slave1:8042/node/containerlogs/container_1500432603585_0148_01_000001/hadoop/stderr?start=-4096但是当作业完成时，通过stdout/stderr链接查看Executor的日志将得到类似的错误页面Redirectingtologserver

容器 hadoop gt lt apache-spark hadoop-yarn

233 234 235236237 238 239