草庐IT

appengine-mapreduce

全部标签

hadoop-mapreduce reducer-combiner 输入

我正在学习一些MapReduce,但遇到了一些问题,情况如下:我有两个文件:“用户”包含用户列表以及他们的一些数据(性别、年龄、国家等...)文件如下所示:user_000003m22UnitedStatesOct30,2005“songs”包含所有用户收听的歌曲数据(userid、收听日期和时间、artistid、artistname、songid、songtitle):user_0009992008-12-11T22:52:33Zb7ffd2af-418f-4be2-bdd1-22f8b48613daNineInchNails1d1bb32a-5bc6-4b6f-88cc-c043

java - 复杂的 MapReduce 配置场景

考虑一个应用程序,它想要使用Hadoop来处理大量专有二进制编码的文本数据,大致如下简化的MapReduce序列:获取文件或目录的URL作为输入读取在输入URL下找到的二进制文件列表从每个文件中提取文本数据将文本数据保存到新的、提取的纯文本文件中将提取的文件分类为具有特殊特征(例如,“上下文”)的(子)格式如有必要,根据上下文拆分每个提取的文本文件使用原始(未拆分)文件的上下文处理每个拆分将处理结果提交给专有数据存储库第5步中识别的格式特定特征(上下文)也作为键值对保存在(小)文本文件中,以便第6步和第7步可以访问它们。第6步中的拆分使用自定义InputFormat类(每个自定义文件格

java - 多输出路径(Java - Hadoop - MapReduce)

我做了两个MapReduce作业,我希望第二个作业能够将我的结果写入两个不同的文件,在两个不同的目录中。在某种意义上,我想要类似于FileInputFormat.addInputPath(..,multipleinputpath)的东西,但对于输出。我是MapReduce的新手,我有一个特点是在Hadoop0.21.0中编写我的代码我在Reduce步骤中使用了context.write(..),但我不知道如何控制多个输出路径...感谢您的宝贵时间!我的第一份工作中的reduceCode,向您展示我只知道如何输出(它进入/../part*文件。但现在我想要的是能够为不同的输出指定两个精确

hadoop - 防止 MapReduce 程序中的输入拆分

我需要将文件输入到map-reduce程序。但该文件不应该被拆分并作为一个整体传递给map函数。一个选项是将issplitable设置为false,但我该怎么做? 最佳答案 1)当您的文件具有.gz扩展名时,通常isSplitable返回false。或2)您可以编写自己的InputFormat来覆盖isSplitable。或3)不要试图让isSplitable返回false。而是将文件的block大小设置为大于文件大小:hadoopfs-Dfs.local.block.size=1000000000-putlocal_namerem

java - Hadoop MapReduce RecordReader 实现是否必要?

来自HadoopMapReduce上的Apache文档InputFormat界面:"[L]ogicalsplitsbasedoninput-sizeisinsufficientformanyapplicationssincerecordboundariesaretoberespected.Insuchcases,theapplicationhastoalsoimplementaRecordReaderonwhomliestheresponsibiltytorespectrecord-boundariesandpresentarecord-orientedviewofthelogical

google-app-engine - Appengine数据存储已损坏,如何重置

我正在使用Go+GoogleAppEngine,似乎我的数据存储已损坏。我使用Filter("ContentId!=",val)运行了一个查询,显然这不是受支持的操作。而且,它破坏了我的数据库!当我转到localhost:8000/datastore时,我得到一条以以下结尾的长堆栈跟踪:File"/Users/me/go_appengine/google/appengine/api/yaml_listener.py",line177,in_HandleEventsraiseyaml_errors.EventError(e,event_object)EventError:couldnot

戈朗 : Different AppEngine packages

这两个AppEngine包有什么区别:https://cloud.google.com/appengine/docs/go/referencehttps://godoc.org/google.golang.org/appengine唯一让我印象深刻的是第二个没有上下文类型在开发应用程序时应该使用哪个? 最佳答案 “google.golang.org/appengine”包适用于托管VM和AppEngineClassic。“appengine”包仅适用于AppEngineClassic。“google.golang.org/appen

google-app-engine - 在 golang ( appengine ) 上无填充的 Base64 编码/解码

有一种方法可以将字符串编码为Base64或从中解码为Base64,而无需在末尾进行填充?我的意思是“==”结尾。我正在使用base64.URLEncoding.EncodeToString进行编码,它工作得很好,但我没有看到决定不在末尾使用填充的方法(就像在java上一样)。 最佳答案 Go1.5会有一个WithPaddingEncoding选项。这还将添加2个预定义编码,RawStdEncoding,andRawURLEncoding,没有填充。尽管由于您使用的是应用程序引擎,并且暂时无法访问Go1.5,您可以创建一些辅助函数来根

hadoop - 如何在 MapReduce 中使用多个字段?

我想了解如何使用MapReduce模型聚合多个字段。例如,如果我有这样一个数据文件:id,site,name,qty,price00,testA,NameA,1,101,testB,NameA,2,302,testB,NameB,5,7并希望在MapReduce上实现此聚合:selectsite,name,(qty*price)astotalfromPOwherename='NameA'groupbysite,name,totalorderbysite;我该怎么做。我可以按站点(键)、总计(值)进行汇总,但不确定如何包含名称列。我需要了解如何在MapReduce中处理多个字段。有没有我

hadoop - 如何使用 Hadoop MapReduce 索引一个非常大的图?

我有一个长文本文件形式的非常大的图(1000亿个链接,1TB),其中每一行定义图弧。引用文件page1,page2page3,page10page5,page1...pageN,pageM其中pageN可以是任何网页。为了节省空间,我想将此图转换为索引版本(包含两个文件)。索引文件(节点文件):page1,1page2,2page3,3page4,4...pageN,N和arc文件(链接):1,23,105,1...N,M是否有任何MapReduce(Hadoop、Pig等)算法可以有效地进行这种转换? 最佳答案 有了Pig,这很容