草庐IT

Spark-DataFrame

全部标签

mongodb - 如何使用带有 mongo-hadoop 连接器的 spark 在 mongo 集合中保存数据?

我关注了mongo-hadoop连接器的documentation.我可以使用以下方法将数据从inputCol集合传输到testDB数据库中的outputCol集合:ConfigurationmongodbConfig=newConfiguration();mongodbConfig.set("mongo.job.input.format","com.mongodb.hadoop.MongoInputFormat");mongodbConfig.set("mongo.input.uri","mongodb://localhost:27017/testDB.inputCol");Java

在Pandas DataFrame中滚动3个以后的3个几个月的唯一计数

以下是数据框DateNamedata01/01/2017AlphaA02/01/2017AlphaA03/01/2017AlphaB01/01/2017BetaA01/20/2017BetaD03/01/2017BetaC04/01/2017BetaC05/01/2017BetaB预期输出:DateNamedataJan2017Alpha1Feb2017Alpha1Mar2017Alpha2Jan2017Beta2Mar2017Beta3Apr2017Beta1May2017Beta2我正在以3个月的滚动方式通过“名称”来寻找“数据”组的独特计数。考虑“2017年3月”和“名称”的示例-&gt

mongodb - 如何通过 Spark 查询 MongoDB 进行地理空间查询

有什么方法可以将MongoDB与Spark一起用于地理空间查询?我看不出如何使用Stratio做到这一点。 最佳答案 有很多方法可以从spark中查询地理空间数据。使用麦哲伦https://github.com/harsha2010/magellan或配置单元esri地理空间工具包。https://github.com/Esri/spatial-framework-for-hadoop我从未尝试过stratio的mongolibrairie,但使用spark数据源api或mongo连接器,我认为您可以使用mongo语法运行地理查询,

如何在spark中使用scikit-learn和tensorflow等第三方python包

目录1打包需要的python包2修改spark配置文件1打包需要的python包首先我们用conda包管理工具对我们需要的python包进行虚拟环境创建:condacreate-npython37--copy-y-qpython=3.7--prefix/your/workspace/pathscikit-learntensorflow下面是对每个参数的解释(😁这里让chatgpt给出的解释,自己就不手打了😊)condacreate:这是创建Conda环境的命令。-npython37:-n参数后跟着你想要创建的环境的名称,这里是python37。你可以将环境名称替换为你喜欢的名称。–copy:这

mongodb - 为什么 MongoDB Spark 连接器会因 AbstractMethodError 而失败?

我正在尝试在远程mongodb集合中插入一个sparksql数据框。之前我用MongoClient写了一个java程序来检查远程集合是否可以访问,我成功地做到了。我现在的spark代码如下-scala>valsqlContext=neworg.apache.spark.sql.hive.HiveContext(sc)warning:therewasonedeprecationwarning;re-runwith-deprecationfordetailssqlContext:org.apache.spark.sql.hive.HiveContext=org.apache.spark.s

mongodb - 尝试使用 scala 从 Spark 向 mongodb 写入 $group 聚合时出现重复键错误

编辑:此编辑可能会改变此问题的进程。在spark上运行的mongodb聚合(特别是$group)在写回集合时创建了重复的_id记录。结果,mongodb抛出重复键错误。顺便说一句,这个查询在mongoshell中运行得很好。这是我做的:我拿了一个小数据集,并将(聚合)spark代码的结果打印到控制台,而不是写入集合。我打印了完整的结果集,但在_id字段中发现了重复项。数据看起来像这样:(已编辑)Document{{_id=Document{{prodCategory=123},{proId=ABC},{‌​location=US}},details=[Document{{....}},

python - 从复杂的 Csv/DataFrame 加载 Json,为 MongoDB 保留数据类型

我正在尝试从一些不同的csv/excel文件为可查询的MongoDB构建json树。数据通常不完整并由主题ID链接。示例数据如下:subid,firstvisit,name,contact,dob,gender,visitdate1,age,visitcategory,samplenumber,label_on_sample,completed_by1,12/31/11,Bob,,12/31/00,Male,,,,,,1,,,,,,12/31/15,17,BaselineVisit,,,1,,,,,,12/31/16,18,FollowUpVisit,,,1,,,,,,12/31/17

mongodb - 找不到数据源 : com. mongodb.spark.sql.DefaultSource

我正在尝试将spark(pyspark)连接到mongodb,如下所示:conf=SparkConf()conf.set('spark.mongodb.input.uri',default_mongo_uri)conf.set('spark.mongodb.output.uri',default_mongo_uri)sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)spark=SparkSession\.builder\.appName("my-app")\.config("spark.mongodb.input.uri",defau

Spark读取HDFS路径文件

文章目录一、Spark读取HDFS路径文件1、函数介绍2、代码示例一、Spark读取HDFS路径文件有些时候我们希望直接读取HDFS上的文件进行处理,那么我们可以使用textFile这个方法,这个方法可以将指定路径的文件将其读出,然后转化为Spark中的RDD数据类型。1、函数介绍textFile是Spark中的一个函数,用于从文本文件中读取数据并创建一个RDD。它可以用于加载文本数据,并将每行文本作为RDD中的一个元素。以下是对textFile函数的详细介绍以及它的参数:deftextFile(path:String,minPartitions

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲最最最重要的就是大数据