草庐IT

spark-csv

全部标签

java - jackson CSV 缺失列

我正在使用JacksonCSV将CSV文件解析为POJO。我的问题是,如果CSV中的一行的列太少,解析器不会提示,只是将其余字段设置为空。解析代码:CsvMappercsvMapper=newCsvMapper();csvMapper.addMixInAnnotations(Person.class,PersonCsvMixin.class);CsvSchemaschema=csvMapper.schemaFor(Person.class).withHeader();MappingIteratorit=csvMapper.reader(dataClass).with(schema).r

java - Apache Spark——使用 spark-submit 抛出 NoSuchMethodError

要将Spark应用程序提交到集群,他们的文档说明:Todothis,createanassemblyjar(or“uber”jar)containingyourcodeanditsdependencies.BothsbtandMavenhaveassemblyplugins.Whencreatingassemblyjars,listSparkandHadoopasprovideddependencies;theseneednotbebundledsincetheyareprovidedbytheclustermanageratruntime.--http://spark.apache.

Java & Spark : add unique incremental id to dataset

使用Spark和Java,我试图向现有的具有n列的数据集[行]添加一个整数标识列。我使用zipWithUniqueId()或zipWithIndex成功添加了一个id,甚至使用了monotonically_increasing_id()。但没有一个能令人满意。示例:我有一个包含195行的数据集。当我使用这三种方法中的一种时,我得到一些像1584156487或12036这样的ID。另外,这些ID不是连续的。我需要/想要的非常简单:一个Integerid列,其值从1到dataset.count()foreach行,其中id=1后跟id=2,等等。我如何在Java/Spark中做到这一点?

java - 如何确定 CSV 文件中的分隔符

我有一个场景,我必须解析来自不同来源的CSV文件,解析代码非常简单明了。StringcsvFile="/Users/csv/country.csv";Stringline="";StringcvsSplitBy=",";try(BufferedReaderbr=newBufferedReader(newFileReader(csvFile))){while((line=br.readLine())!=null){//usecommaasseparatorString[]country=line.split(cvsSplitBy);System.out.println("Country[

java - 我应该在远程工作站的哪个位置放置 CSV 配置文件以进行分布式 JMeter 测试?

我想做JMeter分布式测试。手册中说,首先我应该在远程节点上启动jmeter-server,然后我应该更新jmeter.config并运行jmeter在主节点上。我做了所有这些步骤。我的测试计划包括使用CSV配置文件。如果我只从1个(主)节点进行测试-那么一切都很好。但是当我尝试分布式测试时,所有测试都失败了。一些调查表明,远程节点发送请求时没有替换${..}-like参数。请求看起来像POSTdata:5|0|6|http://host.com/portal/|67D1C612DCF291DCD0F71AD15E404F37|host.ui.client.services.Logi

java - 如何使用 Java 在 SPARK 中使用映射函数

我尝试在spark中读取一个csv文件,我想拆分以逗号分隔的行,以便我有一个带有二维数组的RDD。我是Spark的新手。我试着这样做:publicclassSimpleApp{publicstaticvoidmain(String[]args)throwsException{Stringmaster="local[2]";StringcsvInput="/home/userName/Downloads/countrylist.csv";StringcsvOutput="/home/userName/Downloads/countrylist";JavaSparkContextsc=ne

java - 如何在 Apache Spark 中为两个具有不同结构的 DataFrame 实现 NOT IN

我在我的Java应用程序中使用ApacheSpark。我有两个DataFrame小号:df1和df2.df1包含Row与email,firstName和lastName.df2包含Row与email.我想创建一个DataFrame:df3包含df1中的所有行,df2中不存在哪个电子邮件.有没有办法用ApacheSpark做到这一点?我试图创建JavaRDD来自df1和df2通过类型转换它们toJavaRDD()和过滤df1包含所有电子邮件,然后使用subtract,但我不知道如何映射新的JavaRDD至ds1得到DataFrame.基本上我需要df1中的所有行谁的邮箱不在df2.Dat

java - Spark 应用程序 - Java.lang.OutOfMemoryError : Java heap space

我用的是SparkStandalone单机,128G内存,32核。以下是我认为与我的问题相关的设置:spark.storage.memoryFraction0.35spark.default.parallelism50spark.sql.shuffle.partitions50我有一个Spark应用程序,其中有一个用于1000个设备的循环。对于每个循环(设备),它都会准备特征向量,然后调用MLLib的k-Means。在循环的第25到30次迭代(处理第25到第30个设备)时,它遇到了“Java.lang.OutOfMemoryError:Java堆空间”的错误。我尝试将memoryFra

java - jsontostructs 到 spark 结构化流中的行

我正在使用Spark2.2,我正在尝试从Kafka读取JSON消息,将它们转换为DataFrame并将它们作为Row:spark.readStream().format("kafka").option("kafka.bootstrap.servers","localhost:9092").option("subscribe","topic").load().select(col("value").cast(StringType).as("col")).writeStream().format("console").start();有了这个我可以实现:+-----------------

java - 在 Java 中导出为 CSV/Excel

我正在尝试通过Java将数据导出到CSV文件中,我有一些代码可以执行此操作,但它似乎没有输出CSV文件。有人能告诉我怎么了吗?我想做的不是将文件保存在某处,而是希望将其直接导出给用户。编辑:以防万一不清楚,我不想将文件保存在任何地方,但希望它自动输出给用户,即他们单击导出并获得“运行/保存结果.csv”窗口然后他们打开文件。目前文件正在保存,所以我知道该方法似乎有效,只是以我想要的相反方式。publicstaticvoidwriteToCSV(ListobjectList){StringCSV_SEPARATOR=",";try{BufferedWriterbw=newBuffered