sparking

json - Spark Streaming 滑动窗口的最大值和最小值

我是Spark的初学者；我正在处理spark流用例，其中我收到一条json消息，每个json消息都有一个属性“值”，在解析json后它是双倍的我得到一个数组[Double]。我想找出最大值(值)和最小值(值)最后15秒，滑动窗口为2秒。这是我的代码。valrecord=KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topicMap,StorageLevel.MEMORY_ONLY_SER_2)vallines=record.map(_._2)valvalueDtsre

hadoop - Spark Standalone 和 HDFS 的数据局部性

我有一个工作需要访问HDFS上的Parquet文件，我想尽量减少网络事件。到目前为止，我在相同的节点上启动了HDFSDatanodes和SparkWorker，但是当我启动我的工作时，数据局部性总是在任何地方，它应该是NODE_LOCAL，因为数据分布在所有节点中。我应该配置任何选项来告诉Spark在数据所在的位置启动任务吗？最佳答案您要查找的属性是spark.locality.wait。如果你增加它的值(value)，它将在更多的本地执行作业，因为spark不会仅仅因为数据所在的那个很忙就将数据发送给其他worker。虽然，将

Standalone hadoop section spark configuration apache-spark hdfs

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小，我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件)，则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码，并且运行良好。所以，这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题，例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群，只有Spark、python2.7和java1.8。它工作正常，只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗

datasets pyspark spark apache scala python ubuntu hadoop apache-spark

scala - 如何使用循环在 Spark-Scala 的 HDFS 中迭代多个文本文件？

我在集群中工作。我需要为HDFS中包含的每个文本文件运行相同的spark操作。但是我想在不从shell命令行为每个文件提交sparkjobshell-command的情况下这样做，因为文件数是90。我该怎么做？我的一个文件的代码结构如下:objectSparkGraphGen{defmain(args:Array[String]){valconf=newSparkConf().setMaster("yarn").setAppName("dataset")valsc=newSparkContext(conf)valsqlContext=neworg.apache.spark.sql.SQ

Spark-Scala 本文 file code 34 scala hadoop apache-spark hdfs

hadoop - Apache Spark 中的 lookup() 函数

我有两个数据集，一个存储在Hive中(较小的一个进一步用作查找表)，另一个从SparkStreaming中获取。现在我的要求是对这两个数据集执行一些操作。例如:dataset1:(存储在hive中)idname101steve102daviddataset2:(来自sparkstreaming)iddeprtaddress101E01NewYork102E02London每当我从流媒体中获得101E01NewYork时，我想合并两个数据集并返回如下结果:idnamedeptaddress101steveE01NewYork早些时候，我用广播变量完成了这种类型的任务，我试图通过使用Hiv

hadoop Apache section code 34 apache-spark hive lookup lookup-tables

hadoop - 如何使用spark将数据保存在HDFS中？

我想使用SparkStreaming从Kafka检索数据。现在，我想将我的数据保存在远程HDFS中。我知道我必须使用函数saveAsText。但是，我不知Prop体如何指定路径。如果我这样写是否正确:myDStream.foreachRDD(frm->{frm.saveAsTextFile("hdfs://ip_addr:9000//home/hadoop/datanode/myNewFolder");});ip_addr是我的hdfs远程服务器的IP地址。/home/hadoop/datanode/是我安装hadoop时创建的DataNodeHDFS目录(不知道是不是一定要指定这个目

hadoop spark code section myNewFolder apache-spark hdfs spark-streaming

hadoop - 使用 --proxy-user、--keytab 和 --principal 参数在 hadoop kerberos 中提交 spark-submit

只是想得到澄清，如果spark-submit--keytab--principal&&--proxy-user参数可以共存吗？我们要求以真实的业务用户身份提交作业，但该用户在hadoopkdc中没有主体。每当同时使用proxy-user和kerberosprincipal时，我都会遇到异常。17/02/0913:51:43INFODFSClient:CreatedHDFS_DELEGATION_TOKENtoken379foratlason10.12.118.92:8020Exceptioninthread"main"java.io.IOException:java.lang.refl

hadoop spark-submit apache scala spark apache-spark kerberos

hadoop - 在不安全的 YARN 集群中运行 Spark 时访问安全的 Hive

我们有两个cloudera5.7.1集群，一个使用Kerberos保护，一个不保护。是否可以在访问存储在安全集群中的Hive表时使用不安全的YARN集群运行Spark？(Spark版本为1.6)如果是这样，您能否解释一下如何配置它？更新:我想稍微解释一下我的问题背后的最终目标。我们的主要安全集群被大量使用，我们的工作无法在合理的时间内获得足够的资源来完成。为了克服这个问题，我们希望使用我们拥有的另一个不安全集群的资源，无需在集群之间复制数据。我们知道这不是最佳解决方案，因为数据局部性级别可能不是最佳解决方案，但这是我们目前可以提出的最佳解决方案。如果您有任何其他解决方案，请告诉我，因为

中运 hadoop code strong section apache-spark hadoop-yarn

java - Spark - 如何使用给定权限写入文件

我尝试通过以下方式以750权限从spark写入一些文件我更新了代码中的fs.permissions.umask-modejsc.hadoopConfiguration().set("fs.permissions.umask-mode","022");已成功更新默认umask。然后我尝试在磁盘上写入一些RDD，但文件权限与我应用的掩码不一致。这些文件没有预期的750权限。代码示例:publicclassBla{publicstaticvoidmain(String[]args)throwsException{SparkConfsConf=newSparkConf().setAppName

给定 Spark umask permissions umask-mode java file apache-spark hadoop

scala - 从源代码构建 Apache Spark 2.1.0 失败

我正在尝试构建ApacheSpark2.1.0源代码，但下面出现的这些错误令我感到困惑...Hadoop2.8.0已安装并正在运行在执行Spark安装之前安装了Scala2.12.1(这似乎会自动安装Scala2.11.8？!？)我的构建线是:build/mvn-Pyarn-Phadoop-2.7-Dhadoop.version=2.7.0-DskipTestscleanpackage有人知道我为什么得到:user@server:/usr/local/share/spark/spark-2.1.0$sudo/usr/local/share/spark/spark-2.1.0/build

Apache scala maven spark hadoop apache-spark

227 228 229230231 232 233