spark-thriftserver

unit-testing - 测试 Spark : how to create a clean environment for each test

在测试我的ApacheSpark应用程序时，我想进行一些集成测试。出于这个原因，我创建了一个本地spark应用程序(启用了配置单元支持)，在其中执行测试。如何在每次测试后清除derbyMetastore，以便下一次测试再次拥有干净的环境。我不想做的是在每次测试后重新启动spark应用程序。是否有任何最佳实践可以实现我想要的？最佳答案我认为为集成测试引入一些应用程序级逻辑打破了集成测试的概念。从我的角度来看，正确的方法是为每个测试重新启动应用程序。无论如何，我相信另一种选择是为每个测试启动/停止SparkContext。它应该清除

unit-testing environment section 测试 strong apache-spark hadoop testing hive

apache-spark - 如何从 spark2.3 访问 us-east-2 区域上的 Parquet 文件(使用 hadoop aws 2.7)

我们可以从当前代码访问us-east-1，但无法访问us-east-2上的parquet文件。请注意“us-east-2”连接，创建datafream在intellij上工作正常，但当我们从spark-shell尝试时它会给出400错误。我试图在sparkshell上工作/Users/test/Downloads/spark-2.3.3-bin-hadoop2.7/bin/spark-shell--jars/Users/test/Downloads/hadoop-aws-2.7.3.jar,/Users/测试/下载/aws-java-sdk-1.7.4.jarval配置=sc.hado

spark apache-spark section configuration hadoop amazon-s3

apache-spark - 无法针对 hadoop 3.2.0 构建 spark2.4.3

我正在构建spark2.4.3以使其与最新的hadoop3.2.0兼容。源码下载自https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3.tgz构建命令是./build/mvn-Pyarn-Phadoop-3.2-Dhadoop.version=3.2.0-DskipTestscleanpackage构建结果为:[INFO]SparkProjectParentPOM...........................SUCCESS[1.761s][INFO]SparkProjectTags........

spark apache-spark SUCCESS INFO Project hadoop bigdata

scala - `saveAsTable` 之后无法从 Hive 查询 Spark DF - Spark SQL 特定格式，与 Hive 不兼容

我正在尝试将数据框另存为外部表，它将使用spark和可能使用hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它适用于spark。重现问题的方法如下:scala>println(spark.conf.get("spark.sql.catalogImplementation"))hivescala>spark.conf.set("hive.exec.dynamic.partition","true")scala>spark.conf.set("hive.exec.dynamic.partition.mode","nonstrict")scala>spark.conf.s

Spark Hive 34 scala apache-spark hadoop apache-spark-sql

apache-spark - EMR 没有检测到所有的内存

我使用EMR5.18运行Spark任务。这是设置:出于任何原因，EMR无法检测工作节点上的所有可用内存。我在EMRConfiguration部分没有添加任何内容，都是默认设置。知道是什么原因造成的吗？谢谢。编辑:关于yarn.nodemanager.resource.memory-mb的值。在UI中显示28672但在yarn-site.xml中显示为352768这是安装的应用程序列表:Hive2.3.3、Pig0.17.0、Hue4.2.0、Spark2.3.2、Ganglia3.7.2、Presto0.210、Livy0.5.0、Zeppelin0.8.0、Oozie5.0.0Edi

apache-spark apache code section noreferrer hadoop amazon-emr

shell - 通过 Oozie 工作流提交的 shell 脚本中存在 Spark-submit 不起作用

通过OozieWorkflow，我提交了一个shell脚本，其中包含spark-submit命令。我通过oozie控制台在hdfs/user/admin/first.sh中上传了shell脚本。当我运行脚本直到spark-submit命令时，它运行良好。当它尝试运行spark-submitcmd时，它失败了。本地文件系统中存在spark-submit的原因，但我的脚本正在hadoop管理员用户的hadoop文件系统中运行。任何解决这个问题的方法。如何在hadoop文件系统中从hadoop用户运行本地文件系统(spark-submit)命令，或者我可以在Oozi的帮助下将脚本从hadoo

shell Spark-submit transform spark hadoop oozie oozie-workflow

apache-spark - 不完整的 HDFS URI，没有主机，altohugh 文件确实存在

我正在尝试使用以下代码通过pyspark访问我在hdfs中的文件:spark=SparkSession.builder.appName("MongoDBIntegration").getOrCreate()receipt=spark.read.json("hdfs:///bigdata/2.json")我得到一个错误IncompleteHDFSURI,nohost:hdfs:///bigdata/2.json但是如果我写命令hdfsdfs-cat/bigdata/1.json它会打印我的文件最佳答案错误消息说您没有在HDFSUR

apache-spark altohugh section code bigdata hadoop pyspark hdfs hdp

scala - 使用 Spark/Scala 根据列值减少组中的行

我想根据以下条件在减少每个组中的行的意义上实现Netting:-如果UNITS列在每组中的行中具有负值和正值，则进行算术求和。最后一行将有来自具有的行的Amt量越大。-如果Units在一个组中只有正值或负值，那么我们将按原样传递所有行在下面的数据集中，我想做Netty计算但无法弄清楚，因为这不是聚合:+-----+------+----+-----+|store|prod|amt|units|+-----+------+----+-----+|West|Apple|2.0|-10||West|Apple|3.0|10||West|Orange|5.0|-15||West|Orange|

scala Spark 34 Orange code apache-spark hadoop hdfs cloudera-cdh

apache-spark - 在 Spark 中比较执行器之间的数据

我们有一个spark应用程序，其中数据在不同的执行程序之间共享。但是我们还需要比较执行器之间的数据，其中一些数据存在于executor-1中，一些数据存在于executor-2中。我们想知道如何在spark中实现？例如:有一个包含以下详细信息的文件:Name,Date1,Date2A,2019-01-01,2019-01-23A,2019-02-12,2019-03-21A,2019-04-01,2019-05-31A,2019-06-02,2019-12-30B,2019-01-01,2019-01-21B,2019-02-10,2019-03-21B,2019-04-01,2019

中比 apache-spark 2019 section 01 hadoop

apache-spark - 将 Ceph 端点设置为 DNS 在 Hadoop 中不起作用

我正在尝试启用包含Hadoop(2.7)、Spark(2.3)和Ceph(luminous)的大数据环境。在将fs.s3a.endpoint更改为域名之前，一切正常，正如预期的那样。core-site.xml的关键部分如下:fs.defaultFSs3a://tpcdsfs.s3a.endpointhttp://10.1.2.213:8080但是，当我将fs.s3a.endpoint更改为域名时，如下所示:fs.s3a.endpointhttp://gw.gearon.com:8080然后我尝试在HadoopYarn上启动SparkSQL，抛出如下错误:AmazonHttpClient

apache-spark apache code lt gt hadoop bigdata ceph

181 182 183184185 186 187