草庐IT

pyspark-mongodb

全部标签

MongoDB的安装配置与操作

目录(一)MongoDB具体配置步骤1、安装MongoDB2、启动MongoDB3、MongoDB命令4、MongoDB权限说明(二)MongoDB常用指令集1、常用命令2、Collection聚集集合3、用户相关4、聚集集合查询用户相关5、索引6、修改、添加、删除集合数据7、语句块操作8、其他(一)MongoDB具体配置步骤1、安装MongoDBMongoDB官网:DownloadMongoDBCommunityServer|MongoDBWindows平台下载:mongodb-windows-x86_64-5.0.2-signed.msi或者mongodb-windows-x86_64-5

mongodb - Hadoop 错误 - 无法计算输入拆分 : need to login

我正在尝试Hadoop在我的数据中应用MapReduce,示例inthislink当我为正确的mongo.input.uri配置本地mongo集合时工作正常。但是当我如下所示配置远程mongo集合时,mongo.input.urimongodb://username:password@remote_mongodb_ip:27017/input_collection我得到以下错误java.lang.IllegalArgumentException:Unabletocalculateinputsplits:needtologin最奇怪的是,如果我为输入表和输出表的远程mongo数据库集合使

mongodb - 动态模式的 Hive 表创建

我们正在研究Hive是否允许我们运行一些类似SQL的查询mongo风格的动态模式作为我们map-reduce作业的先驱。数据以几个TiB的BSON文件的形式出现;每个文件包含JSON“样本”。示例示例如下:{"_id":"SomeGUID","SomeScanner":{"B64LR":22,"Version":192565886128245},"Parser":{"Size":73728,"Headers":[{"VAddr":4096,"VSize":7924....etc....作为动态模式,只有少数字段保证存在。我们希望能够针对可能是某物的输入集运行查询喜欢SomeScanne

python - mongodb_hadoop 流与 python : -inputURI not recognized

我正在尝试使用mongodb_hadoop连接器在python中创建一个MapReduce应用程序。我有一个安装了hadoop2.2.0的集群。我已经安装了mongodb_hadoop连接器v1.3.0。我已经安装了mongodb并创建了一个名为hadoop_db的测试数据库,其中包含一个名为“整数”的集合,其中包含整数值。我的目标是尝试计算每个整数的出现次数。我的工作基于此presentation但是当我尝试执行作业时,这是我得到的:bin/hadoopjarshare/hadoop/tools/lib/hadoop-streaming-2.2.0.jar\-mapperpyhado

java - Hadoop 与 mongoDB : NoClassDefFoundError MongoConfigUtil

我正在学习如何使用mongodb数据作为输入在hadoop中编写map/reduce作业。所以我关注了this示例,但出现以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:com/mongodb/hadoop/util/MongoConfigUtilatWordCount.main(WordCount.java:58)atsun.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)atsun.reflect.NativeMethodAccessorImpl.inv

python-2.7 - Dataproc Pyspark 作业仅在一个节点上运行

我的问题是我的pyspark作业没有并行运行。代码和数据格式:我的PySpark看起来像这样(显然是经过简化的):classTheThing:def__init__(self,dInputData,lDataInstance):#...defdoes_the_thing(self):"""About0.01secondscalculationtimeperrow"""#...returnlProcessedData#containsinputdatapre-processedfromotherRDDs#donelikethisbecauseoneRDDcannotworkwithoth

python - PySpark:使用 newAPIHadoopFile 从多行记录文本文件中读取、映射和减少

我正在尝试解决一个类似于thispost的问题.我的原始数据是一个文本文件,其中包含多个传感器的值(观测值)。每个观察都带有时间戳,但传感器名称只给出一次,而不是在每一行中给出。但是一个文件中有多个传感器。TimeMHist::852-YF-0072016-05-1000:00:0002016-05-0923:59:0002016-05-0923:58:0002016-05-0923:57:0002016-05-0923:56:0002016-05-0923:55:0002016-05-0923:54:0002016-05-0923:53:0002016-05-0923:52:0002

java - Hadoop HDFS MapReduce 输出到 MongoDb

我想编写Java程序,它从HDFS读取输入,使用MapReduce处理它并将输出写入MongoDb。场景如下:我有一个包含3个数据节点的Hadoop集群。Java程序从HDFS读取输入,并使用MapReduce对其进行处理。最后将结果写入MongoDb。其实从HDFS读取数据,用MapReduce处理很简单。但是我对将结果写入MongoDb感到困惑。是否支持任何JavaAPI将结果写入MongoDB?另外一个问题是,由于是HadoopCluster,所以我们不知道哪个datanode会运行Reducer任务并产生结果,是否可以将结果写到安装在特定服务器上的MongoDb中?如果我想把结

mongodb - 我们对 mongodb 使用 nosql 就像对 oracle 使用 sql 一样?

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion我将以我的问题为例。如果我们使用ORACLE作为数据库,如果我们想从中获取数据,我们应该知道的是SQL。在sql的帮助下,我们可以从oracle中获取数据。如果我们使用Mongodb作为数据库,我们是否必须了解NoSql。??简单来说。用于ORACLE的SQL。和MongoDB的NoSql?我说得对吗?

python - PySpark 在 RDD 上运行多个函数

你好,我有示例代码:forcolumninposition:myData=dataSplit.map(lambdaarr:(arr[column]))\.map(lambdaline:line.split(','))\.map(lambdafields:("Column",fields[0]))\.map(lambda(column,value):value)\.filter(lambdaline:filterWithAccum(line))\.map(lambda(value):float(value))\.persist(StorageLevel.MEMORY_AND_DISK)r