草庐IT

spark-csv

全部标签

java - org.apache.xbean.asm5.ClassReader 中的 Spark Java IllegalArgumentException

我正在尝试将Spark2.3.1与Java结合使用。我遵循示例inthedocumentation但在调用.fit(trainingData)时不断收到描述不佳的异常。Exceptioninthread"main"java.lang.IllegalArgumentExceptionatorg.apache.xbean.asm5.ClassReader.(UnknownSource)atorg.apache.xbean.asm5.ClassReader.(UnknownSource)atorg.apache.xbean.asm5.ClassReader.(UnknownSource)at

java - 如果我在 Spark 中两次缓存相同的 RDD 会发生什么

我正在构建一个通用函数,它接收一个RDD并对其进行一些计算。由于我在输入RDD上运行了多个计算,所以我想缓存它。例如:publicJavaRDDfoo(JavaRDDr){r.cache();JavaRDDt1=r...//SomecalculationsJavaRDDt2=r...//Othercalculationsreturnt1.union(t2);}我的问题是,因为r给我它可能已经或可能没有被缓存。如果它被缓存并且我再次对其调用缓存,将创建一个新的缓存层,这意味着t1和t2计算出我将有两个r的实例在缓存中?或者willspark会意识到r被缓存并会忽略它?

java - 如何使用 java 从 Spark 中的列表或数组创建行

在Java中,我使用RowFactory.create()来创建行:Rowrow=RowFactory.create(record.getLong(1),record.getInt(2),record.getString(3));其中“record”是数据库中的一条记录,但我无法预先知道“record”的长度,所以我想使用一个列表或一个数组来创建“行”。在Scala中,我可以使用Row.fromSeq()从列表或数组创建行,但我如何在Java中实现这一点? 最佳答案 我们经常需要在现实世界的应用程序中创建数据集或数据帧。以下是如何在

java - 请求的路由还没有映射到 Spark 中

我想做点什么用spark+java+hibernate+postgres注册用户这是我的代码:post("/registrar",(request,response)->{EntityManagerFactoryemf=Persistence.createEntityManagerFactory("compradorcitoPU");EntityManagerem=emf.createEntityManager();em.getTransaction().begin();em.persist(u);em.getTransaction().commit();em.close();retu

java - Spark DataFrame 类的 union() 方法在哪里?

我正在为Spark使用Java连接器,并想联合两个DataFrame,但奇怪的是DataFrame类只有unionAll?这是故意的吗?有没有办法将两个DataFrame联合起来而不重复? 最佳答案 Isthisintentional如果认为可以安全地假设它是故意的。其他联合运算符,如RDD.union和DataSet.union也会保留重复项。如果你仔细想想是有道理的。虽然相当于UNIONALL的操作只是一个逻辑操作,不需要数据访问或网络流量,但发现不同的元素需要洗牌,因此可能非常昂贵。isthereawaytouniontwoD

java - 在 Java 中解析 CSV

我有这种奇怪的情况,我必须水平阅读。所以我得到一个csv文件,其中包含水平格式的数据。如下所示:CompanyName,RunDate,10/27/2010,11/12/2010,11/27/2010,12/13/2010,12/27/2010....RunDate之后显示的所有日期都是运行日期字段的值,我必须在我的系统中为该公司更新该字段。日期值不是固定的数字,它们可以是单个值到10到n个数字。所以我需要读取所有这些值并在系统中更新。我正在用Java编写这个。 最佳答案 String,split(",")不太可能起作用。它会拆分嵌

java - Spark Java 和类路径

我正在尝试从http://www.sparkjava.com/开始,一个小型JavaWeb框架。说明告诉您将其添加为Maven依赖项(已完成),但是当我mvnpackage时,我得到一个classdefnotfoundforspark/Route。我假设这是因为Spark不在我的类路径中。我怎样才能添加它?它会放在pom.xml中吗?编辑:抱歉,这是我的pom.xml:4.0.0com.bernsteinbear.myappmyappjar1.0-SNAPSHOTmyapphttp://maven.apache.orgjunitjunit3.8.1testcom.sparkjavasp

java - 使用 opencsv 将 CSV 写入字符串而不创建实际文件或临时文件

我正在尝试使用opencsv库编写一个csv文件。限制是我不想在磁盘上创建文件,甚至不想创建临时文件。有什么办法可以实现吗?据我所知,CSVWriter的构造函数需要一个FileWriter对象。谢谢! 最佳答案 实际上是constructor需要一个Writer你可以提供aStringWriter创建一个字符串。 关于java-使用opencsv将CSV写入字符串而不创建实际文件或临时文件,我们在StackOverflow上找到一个类似的问题: https:

JAVA - 将 CSV 导入 ArrayList

我正在尝试使用StringTokenizer将CSV文件导入到Arraylist:publicclassTest{publicstaticvoidmain(String[]args){Listdatalist=newArrayList();try{FileReaderfr=newFileReader("c:\\temp.csv");BufferedReaderbr=newBufferedReader(fr);StringstringRead=br.readLine();while(stringRead!=null){StringTokenizerst=newStringTokenize

java - 如何从 spark 中设置和获取静态变量?

我有这样一个类:publicclassTest{privatestaticStringname;publicstaticStringgetName(){returnname;}publicstaticvoidsetName(Stringname){Test.name=name;}publicstaticvoidprint(){System.out.println(name);}}在我的Spark驱动程序中,我像这样设置名称并调用print()命令:publicfinalclassTestDriver{publicstaticvoidmain(String[]args)throwsExc