sparking

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群？并且可以使用 PySpark 吗？

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf，需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是，为什么需要这个Hadoop/Spark集群？因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业，您是否可以在Spark集群上运行它，如果它需要来自HANA/Vora的数据，它可以访问它吗？还是Vora也使用Spark集群来处理数据？因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具，如SQL编辑器等)。因为你可以附加到Vora上的Zeppe

apache-spark PySpark Spark Vora section hadoop sap

java - 使用 Spark Java API 2.2 使用列不是数字的地方过滤数据集？

我是SparkJavaAPI的新手。我想过滤列不是数字的数据集。我的数据集ds1是这样的。+---------+------------+|account|amount|+---------+------------+|aaaaaa|||aaaaaa|||bbbbbb|||123333|||555555|||666666||我想像这样返回一个数据集ds2:+---------+------------+|account|amount|+---------+------------+|123333|||555555|||666666||我试过了，但id对我不起作用。ds2=ds1.sel

Spark java code account section apache-spark hadoop hdfs

apache-spark - 如何实际应用保存的 RF 模型并在 Spark2 中进行预测？

这是一个新手问题，因为我似乎找不到简单的方法。我正在使用天气数据处理航空公司数据集，并预测超过15分钟的延误。航空公司数据集(2007年和2008年):http://stat-computing.org/dataexpo/2009/the-data.html天气:wgetftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/by_year/2007.csv.gz-O/tmp/weather_2007.csv.gzwgetftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/by_year/2008.csv.gz-O/t

中进 apache-spark spark 34 scala hadoop pyspark apache-spark-sql rdd

apache-spark - Pyspark - 如何拆分具有 Datetime 类型结构值的列？

我有以下代码创建窗口并在窗口中聚合值。df.groupBy(window("time","30minutes"))\.agg(func.countDistinct("customer_numbers")窗口列(包含时间段的列)现在是一个具有两个日期时间的结构。[datetime1,datetime2].我的数据框是这样的:windowcustomer_numbers[2018-02-04:10:00:00,2018-02-04:10:30:00]10[2018-02-04:10:30:00,2018-02-04:11:00:00]15我希望它看起来像这样startEndcustomer

apache-spark Datetime code section pre hadoop pyspark apache-spark-sql pyspark-sql

apache-spark - 我应该使用哪个版本的 hadoop-aws

我在EMR5.14(hadoop2.8.3)上的Yarn上运行spark作业。我可以使用更高版本的hadoop-aws(例如2.9或3.1)来受益于s3a协议(protocol)的最新优化吗？最佳答案无论EMR为您提供什么，您都需要坚持使用。他们的s3://连接器是AWS开发的，可能是您最安全的选择。FWIW，自2.8.3以来的s3a用于输入性能。与后来的版本没有太大变化，除了在3.1中，如果您将fs.s3a.experimental.fadvise保留为normal，它会自动从优化顺序IO切换到随机IO(列数据)在第一个向后查

apache-spark hadoop-aws section code 化顺 hadoop amazon-s3 amazon-emr

Scala - 如何将字符串值传递给数据框过滤器 (Spark-Shell)

我在Spark-Shell环境中使用Spark2.2.0和Scala2.11.8。我有一个数据框df，我需要根据'date'列的值过滤掉前一天的数据，然后将数据附加到HDFS位置。(比如今天是2018-06-28，我需要2018-06-27的数据)代码如下:df.filter($"date"==="2018-06-27").write.mode(SaveMode.Append).parquet("hdfs:/path..../date=2018-06-27")Ineedthecodeaboveforautomation,soIneedtoreplace"2018-06-27"forth

Spark-Shell 递给 34 date section scala apache-spark hadoop hdfs

apache-spark - Spark数据集写入之间的区别

我正在使用Spark-Java。我需要知道以下写入Hadoop方法之间是否存在任何差异(性能等):ds.write().mode(mode).format("orc").save(path);或者ds.write().mode(mode).orc(path);谢谢。最佳答案没有区别orc(path)只是format("orc").save(path)的快捷方式同样适用于.json(path)和csv(path)，默认write(path)没有格式为Parquet 关于apache-s

apache-spark apache code section path hadoop hdfs

apache-spark - SQL查询转Spark Dataframe结构化数据处理

我想在sparkdataframe中转换下面的query:sqlContext.sql("SELECTd.dep_name,count(*)FROMemployeese,departmentdWHEREe.dep_id=d.dep_idGROUPBYd.dep_nameHAVINGcount(*)>=2").show输出:+---------+---+|dep_name|_c1|+---------+---+|FINANCE|3||AUDIT|5||MARKETING|6|我尝试使用以下查询:scala>finalEmployeesDf.as("df1").join(depDf.as(

结构化 apache-spark code 34 dep_name hadoop apache-spark-sql bigdata

scala - YARN : how to monitor stages progress programatically? 上的 Spark 2.3.1

我有一个在YARN上运行Spark的设置，我的目标是通过应用程序ID以编程方式获取Spark作业进度的更新。我的第一个想法是解析YARNGUI的HTML输出。然而，这种GUI的问题是，与spark作业关联的进度条不会定期更新，甚至大部分时间都不会更改:当作业开始时，百分比大约是10%，并且卡住了到这个值，直到工作完成。所以这样的YARN进度条与SparkJobs无关。当我单击与Spark作业对应的ApplicationMaster链接时，我将被重定向到在作业运行期间临时绑定(bind)的SparkGUI。阶段页面与Spark作业的进度非常相关。然而，它是纯HTML，因此解析起来很痛苦。

programatically progress Spark section scala apache-spark hadoop hadoop-yarn

186 187 188189190 191 192