spark-submit

scala - 使用 Spark/Scala 根据列值减少组中的行

我想根据以下条件在减少每个组中的行的意义上实现Netting:-如果UNITS列在每组中的行中具有负值和正值，则进行算术求和。最后一行将有来自具有的行的Amt量越大。-如果Units在一个组中只有正值或负值，那么我们将按原样传递所有行在下面的数据集中，我想做Netty计算但无法弄清楚，因为这不是聚合:+-----+------+----+-----+|store|prod|amt|units|+-----+------+----+-----+|West|Apple|2.0|-10||West|Apple|3.0|10||West|Orange|5.0|-15||West|Orange|

scala Spark 34 Orange code apache-spark hadoop hdfs cloudera-cdh

apache-spark - 在 Spark 中比较执行器之间的数据

我们有一个spark应用程序，其中数据在不同的执行程序之间共享。但是我们还需要比较执行器之间的数据，其中一些数据存在于executor-1中，一些数据存在于executor-2中。我们想知道如何在spark中实现？例如:有一个包含以下详细信息的文件:Name,Date1,Date2A,2019-01-01,2019-01-23A,2019-02-12,2019-03-21A,2019-04-01,2019-05-31A,2019-06-02,2019-12-30B,2019-01-01,2019-01-21B,2019-02-10,2019-03-21B,2019-04-01,2019

中比 apache-spark 2019 section 01 hadoop

apache-spark - 将 Ceph 端点设置为 DNS 在 Hadoop 中不起作用

我正在尝试启用包含Hadoop(2.7)、Spark(2.3)和Ceph(luminous)的大数据环境。在将fs.s3a.endpoint更改为域名之前，一切正常，正如预期的那样。core-site.xml的关键部分如下:fs.defaultFSs3a://tpcdsfs.s3a.endpointhttp://10.1.2.213:8080但是，当我将fs.s3a.endpoint更改为域名时，如下所示:fs.s3a.endpointhttp://gw.gearon.com:8080然后我尝试在HadoopYarn上启动SparkSQL，抛出如下错误:AmazonHttpClient

apache-spark apache code lt gt hadoop bigdata ceph

apache-spark - 使用 spark sql 创建 hive 表

在使用spark-sql读取数据框后，我正在尝试创建一个具有Parquet文件格式的配置单元表。表是在配置单元中使用序列文件格式而不是Parquet文件格式创建的。但是在表路径中我可以看到Parquet文件已创建。我无法从配置单元查询这个文件。这是我用过的代码。df.write.option("path","/user/hive/warehouse/test/normal").format("parquet").mode("Overwrite").saveAsTable("test.people")我正在使用spark2.3和hive2.3.3以及MapRDistribution显示创

spark apache-spark section 39 hive hadoop pyspark

scala - 如何在 Scala/Spark 中将文件从 Hadoop (hdfs) 复制到远程 SFTP 服务器？

在Hadoop的文件系统中，我有Excel文件。我的任务是将该文件从Hadoop复制到我的Scala/Spark应用程序中的远程SFTP服务器。我认为直接这样做是行不通的。如果我的担心是正确的，我需要采取后续步骤:1)从Hadoop中删除excel文件到本地目录。例如，我可以使用ScalaDSL来实现:importscala.sys.process._s"hdfsdfs-copyToLocal/hadoop_path/file_name.xlsx/local_path/"!2)从本地目录发送文件到远程SFTP服务器。您可以为这项任务推荐哪种图书馆？我的推理正确吗？解决我的问题的最佳方法

何在 Hadoop code section strong scala apache-spark

apache-spark - 如何将 hadoop conf 目录指定为 conf 属性以启动应用程序

是否有一个spark属性，我们可以在执行spark提交时设置它指定hadoop配置路径，专门指向自定义hdfs-site.xml和core-site.xml文件最佳答案首选的方法是在spark-submit之前设置Hadoop配置目录，而不是单独配置这些文件。exportHADOOP_CONF_DIR=/your/hadoop/dir但如果必须使用sparkConfig来设置，可以按如下方式设置，sparkConfig.set("spark.hadoop.yarn.resourcemanager.hostname","XXX")

conf 定为 section spark hadoop apache-spark

unit-testing - 在 Windows 上运行 spark 单元测试

我正在尝试在Spark上运行一些转换，它在集群(YARN、linux机器)上运行良好。但是，当我尝试在本地计算机(Windows7)上运行单元测试时，出现错误:java.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.atorg.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318)atorg.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333)ato

unit-testing testing section hadoop strong apache-spark

java - 将 Apache Spark 添加到 Eclipse Maven 项目时出现问题

我正在尝试将ApacheSparkMLlib添加为Eclipse中Maven项目的依赖项。我有Maven插件，所以添加依赖项通常就像输入地址一样简单(甚至不必触摸pom.xml)。当我尝试添加MLlib时，出现错误:“无法读取所需库的存档(spark-corejar的位置)或者不是有效的zip文件”所以我也去添加那个jar作为依赖项，但是错误继续发生，只是不同的jar(接下来是hadoop，然后是snappy-java等)需要添加越来越多的依赖项。最终，我似乎已经添加了所有必需的依赖项，但错误只是循环回到hadoop中:“无法读取所需库的存档(hadoopjar的位置)......”当

时出 Eclipse section code Maven java hadoop apache-spark

hadoop - 在 hadoop 2.4 中使用 yarn 在集群模式下运行 Spark 时出现 InvalidResourceRequestException Yarn Exception

使用Apachespark1.1.0和hadoop2.4另外，我的集群在CDH5.1.3上我尝试使用以下命令启动sparkwithyarn。./spark-shell--masteryarn./spark-shell--masteryarn-client我得到以下异常:14/10/1521:33:32INFOcluster.YarnClientSchedulerBackend:ApplicationreportfromASM:appMasterRpcPort:0appStartTime:1413388999108yarnAppState:RUNNING14/10/1521:33:44E

时出 hadoop apache java bigdata apache-spark hadoop-yarn

hadoop - Spark - 连接 2 个 PairRDD 元素

你好，有一个包含2个元素的JavaRDDPair:("TypeA",List),("TypeB",List)我需要将2对组合成1对类型:("TypeA_B",List)我需要将2个列表合并为1个列表，其中每2个json(1个A类型和1个B类型)有一些我可以加入的公共(public)字段。考虑到类型A的列表明显小于另一个，并且连接应该是内部的，因此结果列表应该与类型A的列表一样小。最有效的方法是什么？最佳答案 rdd.join(otherRdd)为您提供第一个rdd的内部连接。要使用它，您需要将两个RDD转换为PairRDD，该Pa

PairRDD hadoop section code json bigdata apache-spark

194 195 196197198 199 200