草庐IT

Spark-configuration

全部标签

mongodb - org.bson.codecs.configuration.CodecConfigurationException : Can't find a codec for class org. springframework.data.mongodb.core.query.GeoCommand

我正在使用如下聚合:finalListaggregations=newArrayList();Polygonpolygon=newPolygon(newPoint(-26.28125,42.19231862526141),newPoint(100.28125,64.7157757187955),newPoint(100.28125,42.19231862526141),newPoint(-26.28125,64.7157757187955));AggregationOperationmatch=newMatchOperation(Criteria.where("location").w

java - 将 Spark 流数据帧写入 MongoDB

我在Spark中有一个具有特定模式的流式数据集。当我想计算一个查询时,我调用:StreamingQueryquery=querydf.writeStream().outputMode(OutputMode.Update()).format("console").start();query.awaitTermination();通过这种方式,我可以在控制台中看到每个触发器的查询结果。如何在Mongo中写入结果DataFrame?对于StramingDataset是不可能的。我是否应该在每次触发时将流式Dataset转换为静态Dataset然后保存?我该怎么做?

MongoDB-Spark 连接器在启动后立即关闭连接

我使用的是MongoDB3.4.10版、Spark2.2.1版和MongoDB-Spark连接器2.2.1版。我有一个scalaspark程序,它通过MongoDB-Spark连接器不断轮询MongoDB以获取新数据。我注意到,只有在我们的实时环境中,在第一次或第二次轮询之后程序才会挂起(不会崩溃只是停止,不再有日志输出)。查看日志输出这是最后一行是:18/08/0211:13:59INFOMongoClientCache:ClosingMongoClient:[localhost:27017]18/08/0211:13:59INFOconnection:Closedconnectio

14 | Spark SQL 的 DataFrame API 读取CSV 操作

sales.csv内容date,category,product,full_name,sales2023-01-01,Electronics,Laptop,JohnSmith,1200.02023-01-02,Electronics,Smartphone,JaneDoe,800.02023-01-03,Books,Novel,MichaelJohnson,15.02023-01-04,Electronics,Tablet,EmilyWilson,450.02023-01-05,Books,Textbook,JamesBrown,40.0当使用SparkSQL的DataFrameAPI读取CSV

web-services - 将 spark 数据加载到 Mongo/Memcached 以供 Web 服务使用

我是spark的新手,有一个特定的工作流程相关问题。虽然这不是一个真正与编码相关的问题,但它更像是一个与spark功能相关的问题,我认为它在这里是合适的。如果您认为这个问题不适合SO,请随时将我重定向到正确的站点。所以这里是:1.我计划使用Spark的滑动窗口功能处理请求流并计算推荐模型。一旦计算出模型,Web服务是否可以直接从RDD查询和使用这些数据?如果是这样,谁能指出我如何实现这一点的一些示例代码?如果没有,我想将数据存储在memcached中,因为我存储的数据目前不是太大,它主要用于我使用Spark的内存迭代计算和流式支持目的,所以是可以将RDD数据加载到memcached中吗

mongodb - 如何使用带有 mongo-hadoop 连接器的 spark 在 mongo 集合中保存数据?

我关注了mongo-hadoop连接器的documentation.我可以使用以下方法将数据从inputCol集合传输到testDB数据库中的outputCol集合:ConfigurationmongodbConfig=newConfiguration();mongodbConfig.set("mongo.job.input.format","com.mongodb.hadoop.MongoInputFormat");mongodbConfig.set("mongo.input.uri","mongodb://localhost:27017/testDB.inputCol");Java

mongodb - 如何通过 Spark 查询 MongoDB 进行地理空间查询

有什么方法可以将MongoDB与Spark一起用于地理空间查询?我看不出如何使用Stratio做到这一点。 最佳答案 有很多方法可以从spark中查询地理空间数据。使用麦哲伦https://github.com/harsha2010/magellan或配置单元esri地理空间工具包。https://github.com/Esri/spatial-framework-for-hadoop我从未尝试过stratio的mongolibrairie,但使用spark数据源api或mongo连接器,我认为您可以使用mongo语法运行地理查询,

如何在spark中使用scikit-learn和tensorflow等第三方python包

目录1打包需要的python包2修改spark配置文件1打包需要的python包首先我们用conda包管理工具对我们需要的python包进行虚拟环境创建:condacreate-npython37--copy-y-qpython=3.7--prefix/your/workspace/pathscikit-learntensorflow下面是对每个参数的解释(😁这里让chatgpt给出的解释,自己就不手打了😊)condacreate:这是创建Conda环境的命令。-npython37:-n参数后跟着你想要创建的环境的名称,这里是python37。你可以将环境名称替换为你喜欢的名称。–copy:这

mongodb - Java MongoDB 客户端 : authentication failed when access to a server not configured to use an authentication

我已将JavaMongoDB客户端配置为使用MongoCredential。不幸的是,当我访问未配置为使用身份验证的服务器时,我收到身份验证失败异常:Causedby:com.mongodb.MongoCommandException:Commandfailedwitherror18:'Authenticationfailed.'onserver….Thefullresponseis{"ok":0.0,"code":18,"errmsg":"Authenticationfailed."}当服务器配置为使用身份验证和JavaMongoDB客户端时,我确实预计会出现此异常,但在这种情况下不

mongodb - 为什么 MongoDB Spark 连接器会因 AbstractMethodError 而失败?

我正在尝试在远程mongodb集合中插入一个sparksql数据框。之前我用MongoClient写了一个java程序来检查远程集合是否可以访问,我成功地做到了。我现在的spark代码如下-scala>valsqlContext=neworg.apache.spark.sql.hive.HiveContext(sc)warning:therewasonedeprecationwarning;re-runwith-deprecationfordetailssqlContext:org.apache.spark.sql.hive.HiveContext=org.apache.spark.s