sparking

hadoop - 无法在 Windows 10 中启动 master for spark

我是Spark的新手，我正在尝试手动启动master(在Windows10中使用MINGW64)。当我这样做时，~/下载/spark-1.5.1-bin-hadoop2.4/spark-1.5.1-bin-hadoop2.4/sbin$./start-master.sh我得到了这些日志，ps:unknownoption--oTry`ps--help'formoreinformation.startingorg.apache.spark.deploy.master.Master,loggingto/c/Users/Raunak/Downloads/spark-1.5.1-bin-hado

hadoop - Spring-xd 容器 (1.3.1) 与 Spark 1.6.1+ Hadoop 2.7.2 的兼容性

我目前正在开发一个spring-xd运行时容器，我使用:Spark1.6.1+Hadoop2.7.2+Spring-xd1.3.1我的问题:这些版本是否与spring-xd容器(1.3.1)兼容？这些可以在集群环境中部署为spring-boot吗？是否有任何特定的Materiallist被推荐用于spring-xd以与spark一起使用？我在github中看到了一些用于sparkstream的示例，它们是否正式发布并在maven中央存储库或关键公共(public)存储库中可用？最佳答案您正在寻找更现代的SpringXD形式。它称

容器 Spring-xd section spring 储库 hadoop apache-spark spring-boot maven-3

performance - Spark 最近 30 天过滤器，提高性能的最佳方法

我有一个记录的RDD，转换为DataFrame，我想按天时间戳过滤并计算最近30天的统计数据，按列过滤并计算结果。Spark应用程序在进入for循环之前非常快，所以我想知道这是否是一种反模式方法，我怎样才能获得良好的性能，我应该使用spark笛卡尔坐标吗？//FILTERPROJECTRECORDSvalclientRecordsDF=recordsDF.filter($"rowkey".contains(""+client_id))client_records_total=clientRecordsDF.count().toLong这是clientRecordsDF的内容root|-

performance Spark Calendar section 20160613 scala hadoop apache-spark statistics

hadoop - 单个记录查找的 Spark 性能

我正在进行一项性能测试，比较SparkSQL和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相当或更快。这些结果与那里的许多例子是一致的。但是，有一个值得注意的异常(exception)情况，即在单个记录级别涉及基于键的选择的查询。在这种情况下，Spark在Tez上比Hive慢得多。在互联网上研究了这个话题后，我找不到满意的答案，想把这个例子提交给SO社区，看看这是与我们的环境或数据相关的个别一次性案例，还是更大的模式与Spark有关。星火1.6.1SparkConf:Executors2，ExecutoryMemo

hadoop Spark section 的 apache-spark pyspark spark-dataframe pyspark-sql

hadoop - 如何计算为 spark 应用程序分配的资源(分配的内存)？

我们知道当提交一个spark应用时，集群会分配资源来运行它，但是如何计算应用所需的总分配内存，例如使用默认配置？最佳答案 Spark作业的总分配内存可以由公式给出TotalMemory=memoryrequiredbythedriver+thememoryusedbyexecutors*numberofexecutors当您提交spark作业时，您通常会指定driver_memory、num_executors和executor_memory。如果您没有指定spark则使用默认值。spark的默认值可以在conf/spark-de

hadoop spark section memory apache-spark hadoop-yarn

scala - oozie spark 2.0 操作给出异常 : java. lang.NoClassDefFoundError: org/apache/spark/internal/Logging

我在尝试使用oozie运行spark操作时遇到以下异常ERRORyarn.ApplicationMaster:Userclassthrewexception:java.lang.NoClassDefFoundError:org/apache/spark/internal/Loggingjava.lang.NoClassDefFoundError:org/apache/spark/internal/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(Cla

spark NoClassDefFoundError java URLClassLoader ClassLoader scala hadoop apache-spark oozie

hadoop - 如何在 Spark on YARN 中为 Spark UI 创建安全过滤器

环境:AWSEMR，yarn集群。描述:我正在尝试使用java过滤器来保护对sparkui的访问，这是通过使用属性spark.ui.filters;问题是，当spark在yarn模式下运行时，该属性总是被hadoop使用过滤器org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter覆盖:spark.ui.filters:org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter这两个参数是haddoop自动传递的spark.org.apache.hadoop.yarn.

Spark 何在 hadoop section apache apache-spark apache-zeppelin

scala - 如何在Spark中找到RDD的长度

这个问题在这里已经有了答案:HowtofindsparkRDD/Dataframesize?(3个答案)关闭4年前。如何找到下面RDD的长度？varmark=sc.parallelize(List(1,2,3,4,5,6))scala>mark.map(l=>l.length).collect:27:error:valuelengthisnotamemberofIntmark.map(l=>l.length).collect

何在 scala section notice span hadoop apache-spark

hadoop - s3 上的 Spark Dataset Parquet 分区创建临时文件夹

Spark(version=2.2.0)没有DirectParquetOutputCommitter。作为替代方案，我可以使用dataset.option("mapreduce.fileoutputcommitter.algorithm.version","2")//magichere.parquet("s3a://...")避免在S3上创建_temporary文件夹。一切正常，直到我将partitionBy设置为我的数据集dataset.partitionBy("a","b").option("mapreduce.fileoutputcommitter.algorithm.versi

Dataset Parquet code section 34 hadoop apache-spark amazon-s3 spark-dataframe apache-spark-dataset

hadoop - 从远程客户端在 Yarn 集群上提交 Spark 作业

我想使用spark-submit命令在远程YARN集群上提交Spark作业。我的客户端是一台Windows机器，集群由一个主机和4个从机组成。我将Hadoop配置文件从我的集群复制到远程机器，即core-site.xml和yarn-site.xml并在spark中设置HADOOP_CONF_DIR变量-env.sh指向它们。但是，当我使用以下命令提交作业时:spark-submit--jarshdfs:///user/kmansour/elevation/geotrellis-1.2.1-assembly.jar\--classtutorial.CalculateFlowDirecti

hadoop Spark ApplicationMaster yarn apache-spark cluster-computing hadoop-yarn

240 241 242243244 245 246