草庐IT

hadoop - 在 Hadoop 中,如何找到哪个从节点正在执行 N 次尝试?

我正在使用Hadoop1.2.1,但我的hadoop应用程序无法执行Reduce。从Hadoop运行中,我看到如下消息:15/05/2218:14:15INFOmapred.JobClient:map0%reduce0%15/05/2218:14:25INFOmapred.JobClient:map100%reduce0%15/05/2218:24:25INFOmapred.JobClient:map0%reduce0%15/05/2218:24:26INFOmapred.JobClient:TaskId:attempt_201505221804_0013_m_000000_0,Sta

java - 如何让 hadoop 忽略\n 输入文件中的字符?

我正在使用Hadoop的mapreduce函数编写倒排索引创建器。我的输入文件中的某些行已将字符\n作为实际字符写入其中(不是ASCII10,而是两个实际字符“\”和“n”)。出于某种我不明白的原因,这似乎导致map函数将我的行分成两行。这是我的一些文件中的一些示例行。32155:WyldwoodRadio:OntheMoveWILLbeginonFridayMay1st,asoriginallyplanned!\n\nWehadsomecomplicationswith...http://t.co/g8STpuHn5Q5:RT@immoumita:#SaveJalSatyagrahi

java - MapReduce 中的 N 轮减少

我正在使用Map/Reduce算法,我试图在单个reducer中合并两棵或多棵树(稍后将尝试微调在一个reducer中合并的树的数量)。我正在尝试使用Nreducerrounds来实现这个算法。我曾尝试使用ChainReducer解决这个问题,但它只允许定义一个reducer(我可能能够使用循环创建该链来实现)。此外,我想定义自定义逻辑来指定何时发出结果。这是我的算法架构图: 最佳答案 您可以使用作业控制,您可以按顺序执行多个mapreduce作业。在您的情况下,reducer中有三个阶段,而映射器中只有一个阶段。您可以拥有三个ma

hadoop - 如何使用spark for map-reduce flow来选择文件夹下所有csv文件的N列,前M行?

具体来说,假设我们有一个包含10k制表符分隔的csv文件的文件夹,这些文件具有以下属性格式(每个csv文件大约10GB):idnameaddresscity...1Mattadd1LA...2Willadd2LA...3Lucyadd3SF......而且我们有一个基于上面“name”的查找表namegenderMattMLucyF...现在我们有兴趣将每个csv文件的前100,000行输出为以下格式:idnamegender1MattM...我们可以使用pyspark来有效地处理这个问题吗?如何并行处理这些10k的csv文件? 最佳答案

hadoop - Pig - 获取 Top n 并在 'other' 中休息

我有分组和聚合的数据,看起来像这样-DateCountryBrowserCount-----------------------2015-07-11,US,Chrome,132015-07-11,US,OperaMini,12015-07-11,US,Firefox,22015-07-11,US,IE,12015-07-11,US,Safari,1...2015-07-11,UK,ChromeMobile,10262015-07-11,UK,IE,4552015-07-11,UK,MobileSafari,47822015-07-11,UK,MobileFirefox,40...201

hadoop - 如何在 Hadoop 中创建从 1..N 开始的迭代器?

我想使用Hadoop作为管理网格作业的简单系统。(我之前使用SGE和pbs/Torque执行此操作,但我们正在转向Hadoop。)我有1000个ZIP文件,每个文件包含1000个文件,总共1M个文件。我想将它们全部上传到AmazonS3。理想情况下,我想在不将文件放入HDFS的情况下执行此操作。所有文件都可以在WWW上访问。我想做的是:有一个从0..999开始的迭代器对于每个map作业,获取迭代器并:获取ZIP文件(大约500MB,因此它将被写入临时存储)阅读ZIP目录。提取每个文件并将其上传到AmazonS3。我知道如何在Java和Python中施展ZIP文件魔法。我的问题是:如何创

hadoop - Hadoop 在 N 层架构中的什么位置?

我对Hadoop及其生态系统还很陌生。我想知道Hadoop在哪里以及如何适合典型的N层架构或任何现代架构?从Hadoop获得结果非常棒,但我如何以及以何种方式整理数据结果以在我的表示层上显示它们? 最佳答案 “典型的n层系统”?不在2层客户端服务器中;不在三层。可以将数据的Map/reduce计算添加到任何系统中。Hadoop是集群上的map/reduce,具有基于冗余数据的分布式文件系统。这会让我想到数据的预定批处理。将数据传送到Hadoop的方式可以是实时的,也可以是从事务数据库到报告数据库的批处理ETL过程。这些都不是“典型”

hadoop - 配置单元错误 : compiling statement: FAILED: ParseException line 15:0 missing EOF at 'collection' near ''\n''

我是hive的新手,我正在创建一个具有以下属性的表,CREATEEXTERNALTABLEEXTTBL_Transactions(TRANSACTION_IDvarchar(70)COMMENT'UniqueID,`PrimaryKey',DEFINITION_IDvarchar(70)COMMENT'Definition,NullAllowed',USER_IDvarchar(70)COMMENT'Contactid,ForeignKey',PURCHASE_DATETIMETimestampCOMMENT'Saveddattime,NullAllowed',PURCHASE_AMO

hadoop - 使用 pig 从键值对中获取 n 个值

我有一个测试文件,其中的键和值由逗号分隔。我怎样才能使用pig脚本为每个键获取10个值。示例输入:john|str1,str2,str3,str4,str5,str6,str7,str8,str9,str10,str11,str2,首选输出:john|str1,str2,str3,str4,str5,str6,str7,str8,str9,str10 最佳答案 有很多不同的方法可以做到这一点,具体取决于您拥有的输入和需要的输出。我假设您只需要前十个值,而可以丢弃其余值。这就是我的做法(CL)。它比短路径(CF)稍长,但代码对我来说更

hadoop - 在 MapReduce 中因为/n 读取被分解成两行的记录

我正在尝试编写一个自定义阅读器,用于读取具有定义字段数的记录(位于两行中)。例如1,2,3,4(","canbethereornot),5,6,7,8我的要求是读取记录并将其作为单个记录推送到映射器中,如{1,2,3,4,5,6,7,8}。请提供一些意见。更新:publicbooleannextKeyValue()throwsIOException,InterruptedException{if(key==null){key=newLongWritable();}//Currentoffsetisthekeykey.set(pos);if(value==null){value=newT