草庐IT

mongodb-spark

全部标签

mongodb - 确保 MongoDB 以动态时间间隔使数据过期并且调用是幂等的

我正在使用MongoDB将用户生成的链接保存在存储器中。用户可以说明他们希望URL在过期之前保存多长时间。每个用户ID也是唯一的。理想情况下,我希望我的请求是幂等的。我想调用尽可能多的电话,而不必检查最后一次电话是否有到期值。我下面的代码似乎给了我:“名称为creationtime_1的索引已存在,但选项不同”或索引不存在。这是我第一次使用MongoDB,如果有任何见解,我将不胜感激。我想我也可能对我的代码进行了冗余检查,但我不知道该怎么做```//mongosettingssessionTTL:=mgo.Index{Key:[]string{"creationtime"},Uniqu

mongodb - 如果将 bson ObjectId 传递给 golang 中的 GridFS OpenId(),我会收到错误 "not found"

我正在尝试使用GoLang中的GridFS从MongoDB读取视频文件。这是我的代码片段,videoIDHex:=bson.ObjectIdHex("5966e9ca0531713218127ddd")file,err:=mongoDatabase.GridFS("collection_files").OpenId(bson.M{"_id":videoIDHex})iferr!=nil{log.Println("Errorfindingthevideo:",err)}当我运行它时,我总是得到错误,notfound但是,当我尝试使用find时,它工作正常。我可以通过以下方式获取文档,vi

mongodb - Mgo 插入命令不创建数据库或插入文档

我的目标是实现这个code.除了不使用sql,我想使用mongoDB。我认为我处理session的方式存在问题。我正在尝试使用mgo通过RestAPI将一些用户数据插入到MongoDB中。每当我打开mongoshell并运行showdbs命令时,都不会显示pollDB。我正在使用Postman来测试RestAPI。任何想法我在插入过程中可能做错了什么?我尝试先在mongoshell中创建集合,然后运行​​CreateUser函数,但我仍然没有看到创建了pollDB。用户typeUserstruct{Idbson.ObjectId`json:"id"bson:"_id,omitempty

mongodb - 将 MongoDB 函数 foreach 转换为 mgo (Golang) 函数

这个函数试图通过它的值更新匹配的代码rescollection具有Marque的代码,它将与doc.Marque进行比较,如果是这样,它将被替换通过品牌值(value)。此代码在mongoDBCLI中完美运行,但因为我正在使用GO。我试图将它转换成mgo如下所示,但它不起作用,我没有在mgo中找到foreach函数,有什么需要的吗在这种情况下替换为?谢谢你的帮助db.res.find().forEach(function(doc){varv=db.brands.findOne({code:doc.Marque});if(v){db.res.update({"Marque":doc.Ma

Spark的五种提交作业方式

Spark执行操作文章目录Spark执行操作1.Spark相关端口号2.本地模式3.standalone模式4.高可用5.yarn模式,要在hadoop103(yarn所在节点)上提交任务6.在windows环境下1.Spark相关端口号1.Spark查看当前Spark-shell运行任务情况端口号:4040(计算)2.SparkMaster内部通信服务端口号:70773.Standalone模式下,SparkMasterWeb端口号:8080(资源)4.Spark历史服务器端口号:180805.HadoopYARN任务运行情况查看端口号:80882.本地模式提交方式:bin/spark-su

xml - 在 spark 中过滤数据框并保存为 avro

我正在尝试将数据框保存为avro文件。我已经读入了一个包含许多嵌套层的xml文件。它将其存储为数据框。数据帧已成功存储。xml有许多namespaceheader,例如@nso、@ns1、@ns2等。这些成为数据帧中的header。当我尝试将它保存为avro文件时,它给了我这个错误:“线程“main”中的异常org.apache.avro.SchemaParseException:非法初始字符:@ns0”valconf=newSparkConf().setMaster("local[2]").setAppName("conversion")valsc=newSparkContext(c

xml - 当出现空值时,Spark XML 标签丢失

下面是我的数据框。+-------+----+----------+|city|year|saleAmount|+-------+----+----------+|Toronto|2017|50.0||Toronto|null|50.0||Sanjose|2017|200.0||Sanjose|null|200.0||Plano|2015|50.0||Plano|2016|50.0||Plano|null|100.0||Newyork|2016|150.0||Newyork|null|150.0||Dallas|2016|100.0||Dallas|2017|120.0||Dallas

xml - 在 apache spark scala 中处理带有 xml 列的文本文件

我有这样一个文件:1,MessiDon'tforgetmethisweekend!2,RonaldoDon'tforgetLaliga3,NeymarIamthebest4,SuarezDon'tforgetmethisweekend!其中第一个字段是id,第二个字段是数据。我需要将它加载到一个RDD,解析xml字符串并提取字段,然后像这样创建另一个RDD:1,Messi,Don'tforgetmethisweekend!2,Ronaldo,Don'tforgetLaliga3,Neymar,Iamthebest4,Suarez,Don'tforgetmethisweekend!由于实

xml - 如何使用 scala 中的 spark xml 解析器解析 XML 中的字符串?

我尝试做的是使用XML解析器解析字符串。我只找到这种在scala中使用Spark进行解析的方法:valdf=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books.xml")我需要解析的是一个字符串,而不是一个文件那么,是否有加载字符串(而不是文件路径)的选项?谢谢! 最佳答案 从下面的字符串创建一个RDD,valxmlStringRDD=sc.parallelize(List("Yourxmlstring"))然后

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin),进行简单的映射/过滤,重新排序,然后将其写回磁盘,如CSV文件。但无论我如何调整它,我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分,以便每个单独的部分更小并且不会导致内存问题吗?(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝