草庐IT

Spark-MongoDB

全部标签

java - 从 Apache Spark SQL 中的用户定义聚合函数 (UDAF) 返回多个数组

我正在尝试使用ApacheSparkSQL在Java中创建一个用户定义的聚合函数(UDAF),该函数在完成时返回多个数组。我在网上搜索过,找不到关于如何执行此操作的任何示例或建议。我能够返回单个数组,但无法弄清楚如何在返回多个数组的evaluate()方法中以正确的格式获取数据。UDAF确实有效,因为我可以在evaluate()方法中打印出数组,我只是想不出如何将这些数组返回给调用代码(如下所示以供引用)。UserDefinedAggregateFunctioncustomUDAF=newCustomUDAF();DataFrameresultingDataFrame=dataFram

java - 手动分配 ID 时,Spring Data MongoDB 注释 @CreatedDate 不起作用

我正在尝试使用审计在我的对象中保存dateCreated和dateUpdated,但是由于我手动设置了ID,所以还有一些额外的工作。遵循OliverGierke在DATAMONGO-946中的建议我正在尝试弄清楚如何正确实现它。作为上述Jira任务中的原始发布者,我从这里下载了示例https://github.com/spring-guides/gs-accessing-data-mongodb.git并对其进行了一些修改:packagehello;importorg.springframework.data.annotation.CreatedDate;importorg.sprin

java - Spring Data MongoDB 尝试为自定义存储库方法生成查询

基于SpringDataDocumentdocumentation,我提供了存储库方法的自定义实现。自定义方法的名称引用了域对象中不存在的属性:@DocumentpublicclassUser{Stringusername;}publicinterfaceUserRepositoryCustom{publicUserfindByNonExistentProperty(Stringarg);}publicclassUserRepositoryCustomImplimplementsUserRepositoryCustom{@OverridepublicUserfindByNonExist

java - 多语言堆栈的集成测试(Java/MongoDB/RabbitMQ...)

我知道RabbitMQ是用Erlang编写的,因此不能像我们使用ActiveMQJMS代理那样嵌入到JVM中。但实际上有一些项目是用另一种语言完成的,可以很容易地嵌入以进行集成测试。例如,用C++编写的MongoDB可以在JVM集成测试的上下文中轻松启动/停止:https://github.com/flapdoodle-oss/embedmongo.flapdoodle.de也有人将其移植到Java:https://github.com/thiloplanz/jmockmongo/所以我想知道当我的应用程序是用Java编写的,而其他技术是用另一种语言编写的(比如用于RabbitMQ的E

大数据 - Spark系列《八》- 闭包引用

 Spark系列文章:大数据-Spark系列《一》-从Hadoop到Spark:大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据-Spark系列《三》-加载各种数据源创建RDD-CSDN博客大数据-Spark系列《四》-Spark分布式运行原理-CSDN博客大数据-Spark系列《五》-Spark常用算子-CSDN博客大数据-Spark系列《六》-RDD详解-CSDN博客大数据-Spark系列《七》-分区器详解-CSDN博客目录8.1.🐶闭包引用的原理1.闭包引用的概念2.闭包引用的副本3.🧀实例代码14.🧀实例代码2

java - 需要帮助在 Spring/Maven 上配置 MongoDB

当我在Spring中编码时,我总是使用注释,并且在涉及基于xml的配置时总是卡住。现在,我被困在一个可能很简单的问题上。如果你能帮我解决这个问题,我将不胜感激。org.springframework.beans.factory.BeanCreationException:Errorcreatingbeanwithname'mongoTemplate'definedinServletContextresource[/WEB-INF/spring-servlet.xml]:Instantiationofbeanfailed;nestedexceptionisorg.springframew

java - 用于 LogisticRegression 的 Spark MLLib TFIDF 实现

我尝试使用spark1.1.0提供的新TFIDF算法。我正在用Java编写MLLib的工作,但我不知道如何让TFIDF实现工作。由于某种原因IDFModel只接受JavaRDD作为方法的输入transform而不是简单的vector。我如何使用给定的类为我的LabeldPoints建模TFIDFvector?注意:文档行的格式为[Label;文]到目前为止,这是我的代码://1.)LoadthedocumentsJavaRDDdata=sc.textFile("/home/johnny/data.data.new");//2.)HashalldocumentsHashingTFtf=n

java - 无法解析主 URL : 'spark:http://localhost:18080'

当我尝试运行我的代码时,它抛出了这个Exception:Exceptioninthread"main"org.apache.spark.SparkException:CouldnotparseMasterURL:spark:http://localhost:18080这是我的代码:SparkConfconf=newSparkConf().setAppName("App_Name").setMaster("spark:http://localhost:18080").set("spark.ui.port","18080");JavaStreamingContextssc=newJavaS

java - MongoDB Java 驱动程序 3.x : How to pass allowDiskUse=true to aggregate() method?

我正在使用mongo-java-driver3.0.2。我有一个使用MongoCollection.aggregate(Listpipeline)的方法排序和限制:privatestaticMongoIterableselectTop(intn){BasicDBObjectsortFields=newBasicDBObject("score",-1);BasicDBObjectsort=newBasicDBObject("$sort",sortFields);BasicDBObjectlimit=newBasicDBObject("$limit",n);Listpipeline=new

Spark大数据分析与实战笔记(第三章 Spark RDD 弹性分布式数据集-03)

文章目录每日一句正能量第3章SparkRDD弹性分布式数据集章节概要3.4RDD的分区3.5RDD的依赖关系后记每日一句正能量书籍是最好的朋友。当生活中遇到任何困难的时候,你都能够向它求助,它永远不会背弃你。第3章SparkRDD弹性分布式数据集章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。RDD是Spark提供的最重要的抽象概念,我们可以将RDD理解为一个分布式存储在集群中的大型数据集合,不同RDD之间可以通过转换操作形成依赖关系实现管