优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么?.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题,应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。 最佳答案 有一个神话,认为大数据是神奇的,一旦部署到大数据集群,您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解,认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群,就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法,我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法
我正在学习apachespark并尝试在scala终端上执行一个小程序。我已经使用以下命令启动了dfs、yarn和历史服务器:start-dfs.shstart-yarn.shmr-jobhistory-deamon.shstarthistoryserver然后在scala终端中,我编写了以下命令:varfile=sc.textFile("/Users/****/Documents/backups/h/*****/input/ncdc/micro-tab/sample.txt");valrecords=lines.map(_.split("\t"));valfilters=record
我尝试设置并运行在YARN之上运行并使用HDFS的Spark集群。我首先使用hadoop-3.1.0为HDFS设置了Hadoop。然后我配置了YARN并启动了两者。我能够将数据上传到HDFS,yarn似乎也能正常工作。然后我只在我的master上安装了spark-2.3.0-bin-without-hadoop并尝试提交申请。由于它是没有Hadoop的spark,我不得不修改spark-env.sh,添加文档中提到的以下行:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath)仅使用这一行我得到了以下异常:
我想知道有什么方法可以让spark-submit临时更改yarn作业的配置?问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问,不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业,并且“--conf”是为spark本身保留的,但是我如何从命令行和应用程序一起设置yarn的配置? 最佳答案 您可以修改Spar
根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf,需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是,为什么需要这个Hadoop/Spark集群?因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业,您是否可以在Spark集群上运行它,如果它需要来自HANA/Vora的数据,它可以访问它吗?还是Vora也使用Spark集群来处理数据?因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具,如SQL编辑器等)。因为你可以附加到Vora上的Zeppe
我是SparkJavaAPI的新手。我想过滤列不是数字的数据集。我的数据集ds1是这样的。+---------+------------+|account|amount|+---------+------------+|aaaaaa|||aaaaaa|||bbbbbb|||123333|||555555|||666666||我想像这样返回一个数据集ds2:+---------+------------+|account|amount|+---------+------------+|123333|||555555|||666666||我试过了,但id对我不起作用。ds2=ds1.sel
这是一个新手问题,因为我似乎找不到简单的方法。我正在使用天气数据处理航空公司数据集,并预测超过15分钟的延误。航空公司数据集(2007年和2008年):http://stat-computing.org/dataexpo/2009/the-data.html天气:wgetftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/by_year/2007.csv.gz-O/tmp/weather_2007.csv.gzwgetftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/by_year/2008.csv.gz-O/t
我有以下代码创建窗口并在窗口中聚合值。df.groupBy(window("time","30minutes"))\.agg(func.countDistinct("customer_numbers")窗口列(包含时间段的列)现在是一个具有两个日期时间的结构。[datetime1,datetime2].我的数据框是这样的:windowcustomer_numbers[2018-02-04:10:00:00,2018-02-04:10:30:00]10[2018-02-04:10:30:00,2018-02-04:11:00:00]15我希望它看起来像这样startEndcustomer
我在EMR5.14(hadoop2.8.3)上的Yarn上运行spark作业。我可以使用更高版本的hadoop-aws(例如2.9或3.1)来受益于s3a协议(protocol)的最新优化吗? 最佳答案 无论EMR为您提供什么,您都需要坚持使用。他们的s3://连接器是AWS开发的,可能是您最安全的选择。FWIW,自2.8.3以来的s3a用于输入性能。与后来的版本没有太大变化,除了在3.1中,如果您将fs.s3a.experimental.fadvise保留为normal,它会自动从优化顺序IO切换到随机IO(列数据)在第一个向后查
我在Spark-Shell环境中使用Spark2.2.0和Scala2.11.8。我有一个数据框df,我需要根据'date'列的值过滤掉前一天的数据,然后将数据附加到HDFS位置。(比如今天是2018-06-28,我需要2018-06-27的数据)代码如下:df.filter($"date"==="2018-06-27").write.mode(SaveMode.Append).parquet("hdfs:/path..../date=2018-06-27")Ineedthecodeaboveforautomation,soIneedtoreplace"2018-06-27"forth