草庐IT

源码Spark

全部标签

java - 线程主java.lang.exceptionininitializerError中的异常在没有hadoop的情况下安装spark

我正在尝试安装spark2.3.0,更具体地说,它是spark-2.3.0-bin-hadoppo2.7'D:\spark\bin'已经添加到环境变量PATH中。同时,安装了JDK-10。未安装Hadoop。但是谷歌说spark可以在没有hadoop的情况下工作。这是错误信息C:\Users\a>spark-shellExceptioninthread"main"java.lang.ExceptionInInitializerErroratorg.apache.hadoop.util.StringUtils.(StringUtils.java:80)atorg.apache.hadoo

ubuntu20.4源码安装最新gcc(gcc V12.2)

        Ubuntu20.4自带的gcc为V9.4.0的版本,老版本的gcc存在不支持新版本C语言规范,在配置、编译、安装应用软件或工具时,可能存在不能正确安装的问题。(比如:libpqxx-7.7.4在配置时要求c++17版本的支持,但gccV9.4.0版本不支持c++17)。因此本文介绍ubuntu20.4的系统下载最新gcc12.2版本源码,并进行本地编译、安装。本节内容包括gcc12.2的必备库安装和gcc12.2安装两部分内容组成。图1ubuntu20.4自带gccV9.4.0版本(一)gcc12.2的必备库安装GMP安装1.在gmp官网下载最新的gmp6.2.1(注意:gc

hadoop源码解析-HDFS通讯协议(上- ClientProtocol 和 ClientDataNodeProtocol)

HDFS通讯协议及主要流程HDFS的通讯协议HDFS架构HDFS架构HDFS基本概念HDFS通讯协议HDFSRPC接口HDFS的通讯协议HDFS架构HDFS(Hadoop分布式文件系统)是ApacheHadoopCore项目的一部分,被设计为可运行在通用硬件上、能处理超大文件的分布式文件系统,其具有高容错、高吞吐、易扩展、高可靠等特性。HDFS架构HDFS是一个主/从体系结构的分布式系统,在HDFS集群中,有一个NameNode和一组DataNode,用户可以通过HDFS客户端同NameNode和DataNode交互访问数据。其中NameNode是主,DataNode是从。NameNode负责

Java Apache Spark : Long transformation chains result in quadratic time

我有一个使用ApacheSpark的Java程序。该程序最有趣的部分如下所示:longseed=System.nanoTime();JavaRDDannotated=documents.mapPartitionsWithIndex(newInitialAnnotater(seed),true);annotated.cache();for(intiter=0;itera.sum(b));//updateoverallcounts(*)seed=System.nanoTime();//copyoverallcountswhichCountChangerusestocomputeastoch

java - Spark : get number of cluster cores programmatically

我在yarn集群中运行我的spark应用程序。在我的代码中,我使用队列的可用核心数在我的数据集上创建分区:Datasetds=...ds.coalesce(config.getNumberOfCores());我的问题:如何以编程方式而非配置方式获取队列的可用核心数? 最佳答案 有一些方法可以从Spark中获取集群中的执行器数量和核心数量。这是我过去使用过的一些Scala实用程序代码。您应该能够轻松地将其改编为Java。有两个关键思想:worker的数量是executor的数量减一或sc.getExecutorStorageStat

java - 加入数据框 spark java

Firstofall,thankyouforthetimeinreadingmyquestion.Myquestionisthefollowing:InSparkwithJava,iloadintwodataframethedataoftwocsvfiles.Thesedataframeswillhavethefollowinginformation.DataframeAirportId|Name|City-----------------------1|Barajas|MadridDataframeairport_city_stateCity|state---------------

java - org.apache.xbean.asm5.ClassReader 中的 Spark Java IllegalArgumentException

我正在尝试将Spark2.3.1与Java结合使用。我遵循示例inthedocumentation但在调用.fit(trainingData)时不断收到描述不佳的异常。Exceptioninthread"main"java.lang.IllegalArgumentExceptionatorg.apache.xbean.asm5.ClassReader.(UnknownSource)atorg.apache.xbean.asm5.ClassReader.(UnknownSource)atorg.apache.xbean.asm5.ClassReader.(UnknownSource)at

java - 如果我在 Spark 中两次缓存相同的 RDD 会发生什么

我正在构建一个通用函数,它接收一个RDD并对其进行一些计算。由于我在输入RDD上运行了多个计算,所以我想缓存它。例如:publicJavaRDDfoo(JavaRDDr){r.cache();JavaRDDt1=r...//SomecalculationsJavaRDDt2=r...//Othercalculationsreturnt1.union(t2);}我的问题是,因为r给我它可能已经或可能没有被缓存。如果它被缓存并且我再次对其调用缓存,将创建一个新的缓存层,这意味着t1和t2计算出我将有两个r的实例在缓存中?或者willspark会意识到r被缓存并会忽略它?

java - 如何使用 java 从 Spark 中的列表或数组创建行

在Java中,我使用RowFactory.create()来创建行:Rowrow=RowFactory.create(record.getLong(1),record.getInt(2),record.getString(3));其中“record”是数据库中的一条记录,但我无法预先知道“record”的长度,所以我想使用一个列表或一个数组来创建“行”。在Scala中,我可以使用Row.fromSeq()从列表或数组创建行,但我如何在Java中实现这一点? 最佳答案 我们经常需要在现实世界的应用程序中创建数据集或数据帧。以下是如何在

FPGA实现精简版UDP通信,占资源很少但很稳定,提供2套工程源码

目录1.高端、中等和精简版UDP通信的选择2.精简版UDP通信实现方案3.工程1介绍及资源占用率和性能表现4.工程2介绍及资源占用率和性能表现5.上板调试验证6.福利:工程代码的获取1.高端、中等和精简版UDP通信的选择FPGA实现UDP协议可难可易,具体根据项目需求而定,目前项目上的需求大概有如下几种:1、使用Xilinx系列FPGA实现UDP通信,且传输的数据量大,速率快,带宽高,这类的UDP通信必然要用到Xilinx的三速网IP,用户接口的数据必然是AXIS流,此类UDP协议功能齐全,无疑是很好的方案,关于这类的UDP通信介绍以及工程源码请参考我之前写的文章点击查看:高端UDP通信,附带