面试Spark

java - 尝试在 Spark DataFrame 上使用 map

我最近开始尝试使用Spark和Java。我最初使用RDD完成了著名的WordCount示例，一切都按预期进行。现在我正在尝试实现我自己的示例，但使用的是DataFrames而不是RDD。所以我正在从文件中读取数据集DataFramedf=sqlContext.read().format("com.databricks.spark.csv").option("inferSchema","true").option("delimiter",";").option("header","true").load(inputFilePath);然后我尝试选择一个特定的列并对每一行应用一个简单的转换

java - 合并两个在 Apache spark 中具有不同列名的数据集

我们需要合并两个具有不同列名的数据集，数据集之间没有公共(public)列。我们尝试了几种方法，两种方法都没有产生结果。请告诉我们如何使用ApachesparkJava合并两个数据集输入数据集1"405-048011-62815","CRCIndustries","630-0746","Dixonvalue","4444-444","3MINdustries","555-55","Dixoncouplingvalve"输入数据集2"222-2222-5555","Tata","7777-88886","WestSide","22222-22224","Reliance","33333-

列名 Apache 34 label sentence java apache-spark apache-spark-sql

java - 线程主java.lang.exceptionininitializerError中的异常在没有hadoop的情况下安装spark

我正在尝试安装spark2.3.0，更具体地说，它是spark-2.3.0-bin-hadoppo2.7'D:\spark\bin'已经添加到环境变量PATH中。同时，安装了JDK-10。未安装Hadoop。但是谷歌说spark可以在没有hadoop的情况下工作。这是错误信息C:\Users\a>spark-shellExceptioninthread"main"java.lang.ExceptionInInitializerErroratorg.apache.hadoop.util.StringUtils.(StringUtils.java:80)atorg.apache.hadoo

exceptionininitializerError java SparkSubmit apache spark apache-spark java-10

2022最全软件测试面试宝典

一、引言1.1 文档目的二、职业规划2.1 简单的自我介绍下2.2 为什么离职2.3加班的看法2.4 你还有什么问题要问? 2.5 你的职业发展规划和职业目标2.6 你最近测试的论坛和网站是什么? 2.7 对于一个新的工具你有什么看法2.8 你做了3年测试收获，你的测试心得2.9 怎么转行的，毕业之后一直从事软件测试吗2.10 以前在哪里上班，公司地址，测试多少人，开发多少人2.11 你的期望薪资是多少? 2.12 多久能入职? 2.13 是怎么考虑做软件测试呢? 2.14 是否有考虑往开发方面测试? 2.15 计算机专业课程有哪些? 2.16 说一下上一个公司背景? 2.17 超过 26

最全 2022 strong xff0c xff0 压力测试面试职场和发展自动化单元测试

Java Apache Spark : Long transformation chains result in quadratic time

我有一个使用ApacheSpark的Java程序。该程序最有趣的部分如下所示:longseed=System.nanoTime();JavaRDDannotated=documents.mapPartitionsWithIndex(newInitialAnnotater(seed),true);annotated.cache();for(intiter=0;itera.sum(b));//updateoverallcounts(*)seed=System.nanoTime();//copyoverallcountswhichCountChangerusestocomputeastoch

transformation quadratic mapPartitionsWithIndex annotated code java apache-spark

java - Spark : get number of cluster cores programmatically

我在yarn集群中运行我的spark应用程序。在我的代码中，我使用队列的可用核心数在我的数据集上创建分区:Datasetds=...ds.coalesce(config.getNumberOfCores());我的问题:如何以编程方式而非配置方式获取队列的可用核心数？最佳答案有一些方法可以从Spark中获取集群中的执行器数量和核心数量。这是我过去使用过的一些Scala实用程序代码。您应该能够轻松地将其改编为Java。有两个关键思想:worker的数量是executor的数量减一或sc.getExecutorStorageStat

programmatically cluster code coresPerExecutor SparkContext java apache-spark dataset hadoop-yarn core

java - 加入数据框 spark java

Firstofall,thankyouforthetimeinreadingmyquestion.Myquestionisthefollowing:InSparkwithJava,iloadintwodataframethedataoftwocsvfiles.Thesedataframeswillhavethefollowinginformation.DataframeAirportId|Name|City-----------------------1|Barajas|MadridDataframeairport_city_stateCity|state---------------

java spark city dfairport code apache-spark dataframe spark-dataframe

java - org.apache.xbean.asm5.ClassReader 中的 Spark Java IllegalArgumentException

我正在尝试将Spark2.3.1与Java结合使用。我遵循示例inthedocumentation但在调用.fit(trainingData)时不断收到描述不佳的异常。Exceptioninthread"main"java.lang.IllegalArgumentExceptionatorg.apache.xbean.asm5.ClassReader.(UnknownSource)atorg.apache.xbean.asm5.ClassReader.(UnknownSource)atorg.apache.xbean.asm5.ClassReader.(UnknownSource)at

IllegalArgumentException ClassReader apache scala spark java apache-spark apache-spark-mllib apache-spark-ml

java - 如果我在 Spark 中两次缓存相同的 RDD 会发生什么

我正在构建一个通用函数，它接收一个RDD并对其进行一些计算。由于我在输入RDD上运行了多个计算，所以我想缓存它。例如:publicJavaRDDfoo(JavaRDDr){r.cache();JavaRDDt1=r...//SomecalculationsJavaRDDt2=r...//Othercalculationsreturnt1.union(t2);}我的问题是，因为r给我它可能已经或可能没有被缓存。如果它被缓存并且我再次对其调用缓存，将创建一个新的缓存层，这意味着t1和t2计算出我将有两个r的实例在缓存中？或者willspark会意识到r被缓存并会忽略它？

Spark java code section RDD caching apache-spark

java - 如何使用 java 从 Spark 中的列表或数组创建行

在Java中，我使用RowFactory.create()来创建行:Rowrow=RowFactory.create(record.getLong(1),record.getInt(2),record.getString(3));其中“record”是数据库中的一条记录，但我无法预先知道“record”的长度，所以我想使用一个列表或一个数组来创建“行”。在Scala中，我可以使用Row.fromSeq()从列表或数组创建行，但我如何在Java中实现这一点？最佳答案我们经常需要在现实世界的应用程序中创建数据集或数据帧。以下是如何在

建行 java section 中创 apache-spark apache-spark-mllib

11 12 131415 16 17