草庐IT

pyspark-mongodb

全部标签

mongodb - 如何使用 mongo-hadoop 从 Pig 上的 BSON 文件加载数组?

我正在尝试使用com.mongodb.hadoop.pig.BSONLoader(https://github.com/mongodb/mongo-hadoop/blob/master/pig/README.md)将数据从MongoDBBSON文件加载到Pig中,但我遇到了困难。MongoDB上的数据包括可变大小的数组,我不确定如何将其加载到pig中(作为元组?)。这是来自MongoDB的示例记录:{"_id":{"$oid":"52fbbca6e4b029a79cd17ff7"},"field":"value","variableSizeArray":["value1","value

《PySpark大数据分析实战》-02.了解Hadoop

📋博主简介💖作者简介:大家好,我是wux_labs。😜热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。📝个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥📝个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥🎉请支持我:欢迎大家点赞👍+收

mongodb - Hbase 数据应该如何才能快速查询响应?

我的情况符合以下规则:一个用户一次只能在一个地点。如果用户A在地点X签到,然后在fieldY,他们不再在fieldX。签到最多只能“持续”3小时。如果用户A在地点X签到然后3小时内什么都没有,他们不再在地点X。数据将使用Kafka和spark-streaming解析到HBase。我想使用HBase,TTL为3小时,版本控制为1,满足上述条件。问题是我很困惑如何在HBase中组织数据以获得更快的查询响应,我应该使用具有field名称或field名称的单个列作为不同的列名称吗?哪个更好,为什么?需要执行的查询是:1.用户A现在在哪里?2.现在X地点有哪些用户?

python - Pyspark sparkSql 问题

我正在使用clouderavm10.0,spark版本为1.6。登录pyspark控制台后,我正在尝试以下语句从配置单元中获取数据sqlContext.sql("select*from/user/hive/warehouse/default.party").show()我收到下面给出的错误。Traceback(mostrecentcalllast):File"",line1,inFile"/usr/lib/spark/python/pyspark/sql/context.py",line580,insqlreturnDataFrame(self._ssql_ctx.sql(sqlQue

sql - pyspark获取月份的周数

我对从pyspark中的datafrme列中的月份获取周数感到困惑,例如,将我的数据框视为WeekID,DateField,WeekNUM1,01/JAN/20172,15/Feb/2017我的输出应该如下所示WeekIDm,DateField,MOF1,01/JAN/2017,12,15/FEB/2017,2我尝试使用striftime和其他我无法执行的日期函数。请帮我解决这个问题。 最佳答案 您可以组合使用to_date和date_format:frompyspark.sql.functionsimportto_date,dat

MongoDB发现与条件的不同计数

如何在MongoDB中选择。Selectroom(distinct),count(whereread=1)fromchatwherefrom="1"orto="1"这是我的JSON{"_id":ObjectId("595da6052008fc2213db32f6"),"room":"1_40","from":"1","to":"40","user_name":"TranCot","mes":"hgfd","time":1499309573832,"read":1}看答案如果您想为每个房间的总读取消息。利用聚合更新db.chat.aggregate([{$match:{$or:[{from:"4

hadoop - Wordcount Nonetype 错误 pyspark-

我正在尝试进行一些文本分析:defcleaning_text(sentence):sentence=sentence.lower()sentence=re.sub('\'','',sentence.strip())sentence=re.sub('^\d+\/\d+|\s\d+\/\d+|\d+\-\d+\-\d+|\d+\-\w+\-\d+\s\d+\:\d+|\d+\-\w+\-\d+|\d+\/\d+\/\d+\s\d+\:\d+','',sentence.strip())#datesremovedsentence=re.sub(r'(.)(\/)(.)',r'\1\3',sen

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所

如何使用MongoDB收集输出作为变量

我能够使用Ansible打印MongoDB数据。但是这里我的要求是将印刷数据用作Ansible中的变量。这是我将获得AnsiblePlaybook输出的输出:这是我的剧本。----hosts:localhostvars:-i:"db.repo.find({$and:[{'product':'Admin'},{'env':'SHK'}]}).pretty()"tasks:-name:Printingtheretrieveddatacommand:mongoAdvantage--quiet--eval"{{i}}"register:temp-name:Printingtheretrieveddat

python - PySpark 动态列计算

下面是我的spark数据框abc134200410220我的输出应该如下所示abc13420241-1223公式是prev(c)-b+a即4-2+0=2和2-4+1=-1 最佳答案 frompyspark.sql.functionsimportlag,udffrompyspark.sql.typesimportIntegerTypefrompyspark.sql.windowimportWindownumbers=[[1,2,3],[2,3,4],[3,4,5],[5,6,7]]df=sc.parallelize(numbers).