mapReduce

multithreading - 多核服务器上的 mongodb map reduce

我有一个包含数千条记录的mongodb，其中包含非常长的向量。我正在使用某种算法寻找输入向量与我的MDB数据集之间的相关性。伪代码:functionfind_best_correlation(input_vector)max_correlation=0return_vector=[]foreachreference_vectorindataset:ifcalculateCorrelation(input_vector,reference_vector)>max_correlationthen:return_vector=reference_vectorreturnreturn_vect

多核 multithreading section vector mongodb parallel-processing mapreduce nodes

javascript - MongoDB 汇总子文档上的每个键

我有多个具有此架构的文档，每个文档每天针对每个产品:{_id:{},app_id:'DHJFK67JDSJjdasj909',date:'2014-08-07',event_count:32423,event_count_per_type:{0:322,10:4234,20:653,30:7562}}我想获取特定日期范围内每个事件类型的总和。这是我正在寻找的输出，其中每个事件类型已在所有文档中求和。event_count_per_type的键可以是任何东西，所以我需要一些可以循环遍历每个键的键，而不是必须隐含它们的名称。{app_id:'DHJFK67JDSJjdasj909',eve

javascript 汇总 34 count event mongodb mapreduce mongodb-query aggregation-framework

mongodb - 从 MongoDB 中删除重复项

嗨，我在mongodb(复制)中有大约500万个文档，每个文档有43个字段。如何删除重复文档。我试过了db.testkdd.ensureIndex({duration:1,protocol_type:1,service:1,flag:1,src_bytes:1,dst_bytes:1,land:1,wrong_fragment:1,urgent:1,hot:1,num_failed_logins:1,logged_in:1,num_compromised:1,root_shell:1,su_attempted:1,num_root:1,num_file_creations:1,num_

mongodb 34 rate host mapreduce mongodb-query aggregation-framework

javascript - MongoDB 唯一值聚合通过 map reduce

我在SO上看到很多关于MongoDB聚合的问题，但是，我还没有找到适合我的完整解决方案。这是我的数据示例:{"fruits":{"apple":"red","orange":"orange","plum":"purple"}}{"fruits":{"apple":"green","plum":"purple"}}{"fruits":{"apple":"red","orange":"yellow","plum":"purple"}}现在，我的目标是确定每种水果的每种颜色的受欢迎程度，因此输出集合应该是这样的:{"_id":"apple""values":{"red":2,"green":

javascript MongoDB 34 code var mapreduce mongodb-query

python - 正在使用 Python 为 Cassandra Dumb 进行 MapReduce？

由于Cassandra还没有内置MapReduce(我认为它会在0.7中出现)，尝试使用Python客户端使用MapReduce是愚蠢的还是我应该只使用CouchDB或Mongo或其他东西？该应用程序是统计数据集合，因此我需要能够通过分组对值求和以递增计数器。我不是，但假装我在进行Google分析，所以我想跟踪显示了哪些浏览器、他们访问了哪些页面以及访问与综合浏览量。我会在写入时自动更新我的计数器，但Cassandra也不是很擅长计数器。难道Cassandra不是正确的选择吗？谢谢! 最佳答案 Cassandra从0.6版本开始支持

Cassandra MapReduce section python mongodb couchdb nosql

Hadoop3教程（十一）：MapReduce的详细工作流程

文章目录（94）MR工作流程Map阶段Reduce阶段参考文献（94）MR工作流程本小节将展示一下整个MapReduce的全工作流程。Map阶段首先是Map阶段：首先，我们有一个待处理文本文件的集合；客户端开始切片规划；客户端提交各种信息（如切片规划文件、代码文件及其他配置数据）到yarn；yarn接收信息，计算所需的MapTask数量（按照切片数）；MapTask启动，读取输入文件，默认使用的是TextInputFormat。输出KV对，以TextInputFormat为例，K是偏移量（行在整个文件的字节数），V是这一行的内容；TextInputFormat读取完毕后，将得到的KV对都输入M

工作流程 MapReduce xff0c xff xff0 数据库大数据 hadoop

mongodb - 使用 MongoDB，有什么简单的方法可以重用 Map/Reduce 结果？

例如，在进行分析时，可能需要10秒的map/reduce运行。运行后，如果其他网页可以利用该结果，那么每页将节省10秒。以某种方式缓存map/reduce结果会很好。可以将成功的map/reduce运行记录为数据库中的map_reduce_result_[timestamp]，然后将此时间戳保存在MongoDB中的db.run_log中。例如，此时间戳是UNIX纪元时间。所以当其他页面需要访问结果时，他们可以获得最大时间戳，然后只需查找存储在MongoDB中的那个结果。但这样做有点像hack，想知道是否有更好的方法来做到这一点。最佳答案

重用 mongodb reduce section code mapreduce mongoid

mongodb - MapReduce问题

我有一个奇怪的MapReduce问题。map功能:>mpfunction(){emit(this.ContractID,{qty:this.Qty,qtybs:this.QtyBs});}归约函数>redfunction(key,values){varsum1=0,sum2=0;values.forEach(function(doc){sum1+=doc.qty;sum2+=doc.qtybs;});return{a:sum1,b:sum2};}为7个合约运行MR:>result=db.fact_payments.mapReduce(mp,red,{out:"myout2",query

MapReduce mongodb 34 NumberLong value

mongodb - 在聚合管道、MapReduce 或 runCommand 中使用存储的 JavaScript 函数

有没有办法在管道或mapreduce中使用保存为db.system.js.save(...)的用户定义函数？最佳答案您保存到system.js的任何函数都可供“JavaScript”处理语句使用，例如$where运算符和mapReduce并且可以通过分配的_id值进行引用。db.system.js.save({"_id":"squareThis","value":function(a){returna*a}})并将一些数据插入到“示例”集合中:{"_id":ObjectId("55aafd2bacbed38e06f9eccf")

JavaScript runCommand code 34 prettyprint-override mongodb mongodb-query aggregation-framework

javascript - 使用 json 对象中变量的参数名称

尝试在mongo上制定一个mapreduce，它将字段值用作发出对象的参数名称。简单来说，我要做的是:emit_object={}param_name="param1"param_value=1emit_object.param_name=param_value我要构建的对象是:{"param1":12}然而正在构建的是以下内容:{"param_name":12}JS支持对象构建的这种“动态”行为吗？(Mongo使用SeaMonkeyJS引擎，如果相关的话)。谢谢，格言。最佳答案 emit_object[param_name]=p

javascript json section param code mongodb mapreduce

158 159 160161162 163 164