Spark-DataFrame

mongodb - 如何使用 spark 将 scala 列表持久化到 mongodb

所以我有一个spark代码，它从mongodb中获取一些文档，进行一些转换并尝试将其存储回mongodb。当我尝试使用以下函数持久化List对象时出现问题:首先我使用这个函数生成一些元组:valusersRDD=rdd.flatMap(breakoutFileById).distinct().groupByKey().mapValues(_.toList)然后我使用自定义mapToDocument函数将元组字段转换为文档，并调用saveToMongoDB函数:usersRDD.map(mapToDocument).saveToMongoDB()我收到以下错误消息:org.bson.co

python - MongoDB Spark 连接器 py4j.protocol.Py4JJavaError : An error occurred while calling o50. 加载

我以前能够加载这个MongoDB数据库，但现在收到一个我无法弄清楚的错误。以下是我如何开始我的Sparksession:spark=SparkSession.builder\.master("local[*]")\.appName("collab_rec")\.config("spark.mongodb.input.uri","mongodb://127.0.0.1/example.collection")\.config("spark.mongodb.output.uri","mongodb://127.0.0.1/example.collection")\.getOrCreate(

Py4JJavaError 4JJavaError spark mongodb MongoInferSchema python apache-spark

使用Apache Spark与Scala在两个蜂巢柱之间进行模糊比较

我正在阅读来自2个蜂巢表的数据。令牌表具有需要与输入数据匹配的令牌。输入数据将具有描述列以及其他列。我需要拆分输入数据，并需要将每个分裂元素与令牌表中的所有元素进行比较。目前，我正在使用me.xdrop.fuzzywuzzy.fuzzysearch库进行模糊匹配。以下是我的代码段-valtokens=sqlContext.sql("selecttokenfromtokens")valdesc=sqlContext.sql("selectdescriptionfromdesceriptiontable")valdesc_tokens=desc.flatMap(_.toString().split

蜂巢模糊 tokens desc_tokens code

如何使用Apache Spark Java中的Hadoop Office库将数据集写入Excel文件

目前我正在使用com.crealytics.spark.excel要读取Excel文件，但是使用此库，我无法将数据集写入Excel文件。这个关联说使用HadoopOffice库（org.zuinnote.spark.office.excel）我们可以读写到Excel文件请帮助我将数据集对象写入SparkJava中的Excel文件。看答案您可以使用org.zuinnote.spark.office.excel用于读取和编写数据集的Excel文件。给出示例https://github.com/zuinnote/spark-hadoopoffice-ds/。但是，如果您在数据集中阅读Excel并尝试

写入文件 spark zuinnote String

MongoDB Spark Connector - 聚合速度慢

我正在使用Spark应用程序和Mongos控制台运行相同的聚合管道。在控制台上，数据在眨眼间获取，只需第二次使用“它”即可检索所有预期数据。然而，根据SparkWebUI，Spark应用程序需要将近两分钟的时间。如您所见，正在启动242个任务来获取结果。我不确定为什么在MongoDB聚合仅返回40个文档时启动了如此大量的任务。看起来开销很大。我在Mongos控制台上运行的查询:db.data.aggregate([{$match:{signals:{$elemMatch:{signal:"SomeSignal",value:{$gt:0,$lte:100}}}}},{$group:{_

Connector MongoDB 34 code noreferrer apache-spark mongodb-query mongodb-java

Spark读取JDBC调优

Spark读取JDBC调优，如何调参一、场景构建二、参数设置1.灵活运用分区列实际问题：工作中需要读取一个存放了三四年历史数据的pg数仓表（缺少主键id），需要将数据同步到阿里云MC中，Spark在使用JDBC读取关系型数据库时，默认只开启一个task去执行，性能低下，因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义，否则可能会因为配置不当导致数据倾斜！翻看了网络上好多相关介绍，都沾边。下边总结一下！您是菜鸟就好好学习，您是大佬欢迎提出修改意见！一、场景构建以100行数据为例（实际307983条）：创建表CREATETABLEIFNOTEXISTStest( good_idSTR

Spark JDBC span class token 大数据数据库

spark grpc 在master运行报错 exitcode13 User did not initialize spark context

程序使用sparksql以及protobufgrpc，执行报错ApplicationMaster:Finalappstatus:FAILED,exitCode:13,(reason:Uncaughtexception:java.lang.IllegalStateException:Userdidnotinitializesparkcontext!先说原因：1.使用了不具备权限的用户，spark运行环境有缺失2.protobuf需要使用指定操作系统进行编译未使用os.detected.classifier=windows-x86_64或linux-x86_64，或者把windows上编译的jar

spark initialize li protobuf xff0c 大数据分布式 gRpc

计算机毕业设计 Spark网易云音乐数据分析

文章目录0项目说明1系统模块2分析内容3界面展示4项目源码0项目说明基于Spark网易云音乐数据分析提示：适合用于课程设计或毕业设计，工作量达标，源码开放项目分享：https://gitee.com/asoonis/feed-neo1系统模块包含爬虫,Scala代码,Spark,Hadoop,ElasticSearch,logstash,Flume,echarts,log4jemotional_analysis_spider爬虫模块emotional_analysis_web数据处理模块(Scala代码)emotional_analysis_recommend推荐模块目前还未开发emotion

数据分析网易 34 import String java python

java - 使用 Mongo-Hadoop 连接器通过 Apache Spark 更新 MongoDb 中的集合

我想通过Java中的Spark更新MongoDb中的特定集合。我正在使用MongoDBConnectorforHadoop从ApacheSpark检索和保存信息到Java中的MongoDb。在关注了SampoNiskanen的优秀postregardingretrievingandsavingcollectionstoMongoDbviaSpark,我在更新Collection方面遇到了困难。MongoOutputFormat.java包括一个采用String[]updateKeys的构造函数，我猜它指的是一个可能的键列表，用于比较现有集合并执行更新。但是，使用带有参数MongoOut

Mongo-Hadoop MongoDb code MongoOutputFormat class java apache-spark rdd

mongodb - Mongo Spark连接器和mongo 3.2，root用户无法读取数据库

我使用官方的mongospark连接器。我的spark版本是2.0我的mongo版本是3.2.x我的sparkmongo连接器是1.1.0在我的数据库中，我有一个具有root角色的管理员，所以他有权限。我已经创建了一个配置如下:valreadConfig=ReadConfig(Map("spark.mongodb.auth.uri"->"mongodb://:@:27017/admin","spark.mongodb.input.uri"->"mongodb://:27017/MyDatabase.myCollection"))但是当我尝试读取一些数据时，出现错误“未授权执行命令。”我

mongodb Mongo 34 section apache-spark

116 117 118119120 121 122