草庐IT

sparking

全部标签

hadoop - 无法在 Windows 10 中启动 master for spark

我是Spark的新手,我正在尝试手动启动master(在Windows10中使用MINGW64)。当我这样做时,~/下载/spark-1.5.1-bin-hadoop2.4/spark-1.5.1-bin-hadoop2.4/sbin$./start-master.sh我得到了这些日志,ps:unknownoption--oTry`ps--help'formoreinformation.startingorg.apache.spark.deploy.master.Master,loggingto/c/Users/Raunak/Downloads/spark-1.5.1-bin-hado

hadoop - Spring-xd 容器 (1.3.1) 与 Spark 1.6.1+ Hadoop 2.7.2 的兼容性

我目前正在开发一个spring-xd运行时容器,我使用:Spark1.6.1+Hadoop2.7.2+Spring-xd1.3.1我的问题:这些版本是否与spring-xd容器(1.3.1)兼容?这些可以在集群环境中部署为spring-boot吗?是否有任何特定的Materiallist被推荐用于spring-xd以与spark一起使用?我在github中看到了一些用于sparkstream的示例,它们是否正式发布并在maven中央存储库或关键公共(public)存储库中可用? 最佳答案 您正在寻找更现代的SpringXD形式。它称

performance - Spark 最近 30 天过滤器,提高性能的最佳方法

我有一个记录的RDD,转换为DataFrame,我想按天时间戳过滤并计算最近30天的统计数据,按列过滤并计算结果。Spark应用程序在进入for循环之前非常快,所以我想知道这是否是一种反模式方法,我怎样才能获得良好的性能,我应该使用spark笛卡尔坐标吗?//FILTERPROJECTRECORDSvalclientRecordsDF=recordsDF.filter($"rowkey".contains(""+client_id))client_records_total=clientRecordsDF.count().toLong这是clientRecordsDF的内容root|-

hadoop - 单个记录查找的 Spark 性能

我正在进行一项性能测试,比较SparkSQL和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中,Spark显示的查询执行时间与Tez上的Hive相当或更快。这些结果与那里的许多例子是一致的。但是,有一个值得注意的异常(exception)情况,即在单个记录级别涉及基于键的选择的查询。在这种情况下,Spark在Tez上比Hive慢得多。在互联网上研究了这个话题后,我找不到满意的答案,想把这个例子提交给SO社区,看看这是与我们的环境或数据相关的个别一次性案例,还是更大的模式与Spark有关。星火1.6.1SparkConf:Executors2,ExecutoryMemo

hadoop - 如何计算为 spark 应用程序分配的资源(分配的内存)?

我们知道当提交一个spark应用时,集群会分配资源来运行它,但是如何计算应用所需的总分配内存,例如使用默认配置? 最佳答案 Spark作业的总分配内存可以由公式给出TotalMemory=memoryrequiredbythedriver+thememoryusedbyexecutors*numberofexecutors当您提交spark作业时,您通常会指定driver_memory、num_executors和executor_memory。如果您没有指定spark则使用默认值。spark的默认值可以在conf/spark-de

scala - oozie spark 2.0 操作给出异常 : java. lang.NoClassDefFoundError: org/apache/spark/internal/Logging

我在尝试使用oozie运行spark操作时遇到以下异常ERRORyarn.ApplicationMaster:Userclassthrewexception:java.lang.NoClassDefFoundError:org/apache/spark/internal/Loggingjava.lang.NoClassDefFoundError:org/apache/spark/internal/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(Cla

hadoop - 如何在 Spark on YARN 中为 Spark UI 创建安全过滤器

环境:AWSEMR,yarn集群。描述:我正在尝试使用java过滤器来保护对sparkui的访问,这是通过使用属性spark.ui.filters;问题是,当spark在yarn模式下运行时,该属性总是被hadoop使用过滤器org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter覆盖:spark.ui.filters:org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter这两个参数是haddoop自动传递的spark.org.apache.hadoop.yarn.

scala - 如何在Spark中找到RDD的长度

这个问题在这里已经有了答案:HowtofindsparkRDD/Dataframesize?(3个答案)关闭4年前。如何找到下面RDD的长度?varmark=sc.parallelize(List(1,2,3,4,5,6))scala>mark.map(l=>l.length).collect:27:error:valuelengthisnotamemberofIntmark.map(l=>l.length).collect

hadoop - s3 上的 Spark Dataset Parquet 分区创建临时文件夹

Spark(version=2.2.0)没有DirectParquetOutputCommitter。作为替代方案,我可以使用dataset.option("mapreduce.fileoutputcommitter.algorithm.version","2")//magichere.parquet("s3a://...")避免在S3上创建_temporary文件夹。一切正常,直到我将partitionBy设置为我的数据集dataset.partitionBy("a","b").option("mapreduce.fileoutputcommitter.algorithm.versi

hadoop - 从远程客户端在 Yarn 集群上提交 Spark 作业

我想使用spark-submit命令在远程YARN集群上提交Spark作业。我的客户端是一台Windows机器,集群由一个主机和4个从机组成。我将Hadoop配置文件从我的集群复制到远程机器,即core-site.xml和yarn-site.xml并在spark中设置HADOOP_CONF_DIR变量-env.sh指向它们。但是,当我使用以下命令提交作业时:spark-submit--jarshdfs:///user/kmansour/elevation/geotrellis-1.2.1-assembly.jar\--classtutorial.CalculateFlowDirecti