草庐IT

apache-spark-2.3

全部标签

java - 从单元格值获取单元格索引,Apache POI

EnvironmentStatusVersionPatchNumberWindowsLive1.02UnixLive2.04MacLive1.38如果我在excel中有上面显示的数据,我如何使用文本访问PatchNumber的cellNumberXSSFRowrow=(XSSFRow)rows.next();我想访问row.getCellNumber("PatchNumber");//注意这个方法在ApachePOI中不存在。 最佳答案 我想我明白您的意思-您想知道哪一列的第一行包含单词“Patch”?如果是这样,您需要做的就是:S

java.lang.ClassNotFoundException : org. apache.poi.xssf.usermodel.XSSFWorkbook

当我尝试在正常的java类中创建一个工作簿时,它正在创建,但是当我尝试在servlet上运行它时,它抛出异常普通java类importjava.io.File;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.IOException;importorg.apache.poi.ss.usermodel.Workbook;importorg.apache.poi.xssf.usermodel.XSSFWorkbook;publicclassSampleclass{publicsta

java - Spark : driver/worker configuration. 驱动程序是否在主节点上运行?

我在AWS上启动一个spark集群,有一个master和60个核心:下面是启动的命令,基本上每个核心2个executor,一共120个executor:spark-submit--deploy-modecluster--masteryarn-cluster--driver-memory180g--driver-cores26--executor-memory90g--executor-cores13--num-executors120然而,在作业跟踪器中,只有119个执行程序:我认为应该有1个驱动程序+120个工作执行程序。但是,我看到的是119个executor,其中包括1个driv

java - Spark SQL 失败,因为 "Constant pool has grown past JVM limit of 0xFFFF"

我在EMR4.6.0+Spark1.6.1上运行这段代码:valsqlContext=SQLContext.getOrCreate(sc)valinputRDD=sqlContext.read.json(input)try{inputRDD.filter("`first_field`isnotnullOR`second_field`isnotnull").toJSON.coalesce(10).saveAsTextFile(output)logger.info("DONE!")}catch{casee:Throwable=>logger.error("ERROR"+e.getMessa

java - 转换为 BufferedImage 时 PDFBox 错误 : NoClassDefFoundError: org/apache/fontbox/FontBoxFont

我正在尝试使用PDFBox将PDF文档转换为.png文件。我关注了thisanswer了解需要哪些依赖项并给我一个起点。当我尝试遍历页面并创建BufferedImage时,我收到了一个NoClassDefFoundError错误。它正在寻找org/apache/fontbox/FontBoxFont,但通过一些广泛的谷歌搜索,我没有找到关于FontBoxFont的信息。这是一个需要包含的单独的jar吗?是什么导致了这个错误?项目中包含以下.jar:pdfbox-2.0.2.jarlevigo-jbig2-imageio-1.6.5.jarpdfbox-tools-2.0.2.jarja

java - Apache Camel 中的窃听和多播有什么区别

wireTap和multicast在Camel中的默认行为似乎是相似的。那就是它们都有助于以不同的方式处理相同的消息。那么wireTap和multicast的主要区别是什么? 最佳答案 @Srikanth-Idon'tthinkyoucanachieveconcurrencybyusingwireTap这不是很正确。WireTap以及具有并行处理的多播将具有并发性。这是WireTap的主要目的。作为在主线程之外进行日志记录或审核的示例,不会因非功能性操作而减慢主线程。区别在于:WireTap是“单向fork”。消息到达与主线程并行的

java - 尝试在 Spark DataFrame 上使用 map

我最近开始尝试使用Spark和Java。我最初使用RDD完成了著名的WordCount示例,一切都按预期进行。现在我正在尝试实现我自己的示例,但使用的是DataFrames而不是RDD。所以我正在从文件中读取数据集DataFramedf=sqlContext.read().format("com.databricks.spark.csv").option("inferSchema","true").option("delimiter",";").option("header","true").load(inputFilePath);然后我尝试选择一个特定的列并对每一行应用一个简单的转换

java - 合并两个在 Apache spark 中具有不同列名的数据集

我们需要合并两个具有不同列名的数据集,数据集之间没有公共(public)列。我们尝试了几种方法,两种方法都没有产生结果。请告诉我们如何使用ApachesparkJava合并两个数据集输入数据集1"405-048011-62815","CRCIndustries","630-0746","Dixonvalue","4444-444","3MINdustries","555-55","Dixoncouplingvalve"输入数据集2"222-2222-5555","Tata","7777-88886","WestSide","22222-22224","Reliance","33333-

java - 线程主java.lang.exceptionininitializerError中的异常在没有hadoop的情况下安装spark

我正在尝试安装spark2.3.0,更具体地说,它是spark-2.3.0-bin-hadoppo2.7'D:\spark\bin'已经添加到环境变量PATH中。同时,安装了JDK-10。未安装Hadoop。但是谷歌说spark可以在没有hadoop的情况下工作。这是错误信息C:\Users\a>spark-shellExceptioninthread"main"java.lang.ExceptionInInitializerErroratorg.apache.hadoop.util.StringUtils.(StringUtils.java:80)atorg.apache.hadoo

java - 我得到 "NoClassDefFoundError: org/apache/logging/log4j/util/ReflectionUtil"

我的build.gradle文件中有以下依赖项。compile'org.slf4j:slf4j-api:1.7.25'compilegroup:'org.apache.logging.log4j',name:'log4j-core',version:'2.11.1'compilegroup:'org.apache.logging.log4j',name:'log4j-api',version:'2.11.1'在运行我的单元测试时,会显示以下日志。excludepatterns:SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foun