草庐IT

part_number

全部标签

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh

java - 为什么我的输出文件名为 'part-r-xxxxx' ,即使我没有提到任何 reducer 类?

我正在使用Hadoop2.6.0的Apache发行版。我知道映射器的输出文件以每个映射器的“part-m-xxxxx”格式命名,而reducer的输出文件为每个reducer命名为“part-r-xxxxx”。我正在试验一个简单的Max-Temperature用例,并且我没有在我的作业配置中设置任何reducer类。既然如此,输出文件不应该命名为“part-m-xxxxx”吗?请在下面找到我的主要类(class):publicclassMaxTemperature{publicstaticvoidmain(String[]args)throwsException{Configurati

Hadoop 数据节点 : why is there a magic "number" for threshold of data blocks?

专家,我们可能会看到我们的hadoop集群中的block数增长。“太多”block会导致数据节点堆需求增加、执行速度下降、GC次数增多等后果。当block数超过某个“阈值”时,​​我们应该引起注意。我见过不同的阈值静态数字,例如200,000或500,000——“神奇”数字。它不应该是节点内存的函数(DataNode的Java堆大小,以字节为单位)吗?其他有趣的相关问题:高block数表示什么?一种。小文件太多?b.产能不足?是(a)还是(b)?如何区分两者?什么是小文件?大小小于block大小(dfs.blocksize)的文件?每个文件是否在磁盘上占用一个新的数据block?还是与

hadoop - Hive 总是给出 "Number of reduce tasks determined at compile time: 1",无论我做什么

createexternaltableifnotexistsmy_table(customer_idSTRING,ip_idSTRING)location'ip_b_class';然后:hive>setmapred.reduce.tasks=50;hive>selectcount(distinctcustomer_id)frommy_table;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1里面有160GB,1个reducer需要很长时间...[ihadanny@lv

sql - 如何在 hive sql 中获取每个组的最大 row_number()

在配置单元SQL中使用row_number(),我可以通过在where子句中选择1来过滤重复项/选择id的第一个实例,如下所示。我在这里需要的是如何找到每个组中的最后一个实例。select*from(selectc1,c2,c3,c4,c5,id,row_number()over(partitionbyidORDERBYid)asseqfromtable)ascntwhereseq=1;我的要求是,例如,如果id1212有3个实例,而1313有5个实例,如下表所示,我可以使用上面的查询并通过在where子句中选择1来仅获取一个实例。但是我想要下面的id12123和5id1313。c1,

hadoop - 亚马逊电子病历 : Set unique number of mappers and reducers per EMR instance

我正在运行一个具有M个核心实例和N个任务实例的AmazonEMR集群。我的作业每天运行多次并且对时间敏感,因此我保持M核心实例24/7全天候运行,这样我就没有与S3之间的数据传输开销。N个任务节点正在根据需要动态启动和终止。M个核心节点为c1.mediums,N个任务节点为m2.xlarge。有没有办法为每个实例配置mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum?对于我想要的核心节点:mapred.tasktracker.map.tasks.maximum=2mapred.task

Hadoop MultipleOutputs 输出文件 "part-day-26"

我在mapreduce作业中遇到问题,我希望输出文件的格式为file-day-26而不是part-r-00000.我已尝试使用addNamedOutput方法来完成此操作(MultipleOutputs),但只能更改部分part.在旧的API中,我看到可以使用generateFileNameForKeyValue方法来做到这一点(MultipleTextOutputFormat),但是我不能使用旧的API,所以我想知道Hadoop的新API中是否有这样的东西。有人可以帮助我吗?谢谢。 最佳答案 尝试使用MultipleOutputF

hadoop - Apache PIG - 如何更改文件的标准输出名称 "part-r-00000"?

我有一个.pig脚本,它创建一个包含一些计算数据的文件。我想将输出文件命名为“result.txt”,而不是无意义的标准输出名称“part-r-00000”。我的.pig脚本中的最后一个条目是storeCinto'result'USINGPigStorage();因此,“result”是HDFS中应存储result.txt的文件夹的名称。我该怎么做? 最佳答案 part-r-XXXXX并非毫无意义,具体取决于您打算如何使用它们。如果您需要将这个pig脚本的结果加载到另一个pig脚本中,您可以这样做:A=LOAD'result'USI

python-2.7 - java.io.IOException : Broken pipe on increasing number of mappers/reducers, 很多

我在6个节点的hadoop集群上运行MapReduce作业,配置了4个映射任务和10个缩减任务。Mapper/Reducer在增加map/reduce任务数量时失败很多,如下所示,我遇到以下错误:标准错误日志java.lang.RuntimeException:PipeMapRed.waitOutputThreads():subprocessfailedwithcode143atorg.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)atorg.apache.hadoop.streamin

Hadoop MapReduce : default number of mappers

如果我不指定映射器的数量,如何确定该数量?是否有从配置文件(例如mapred-site.xml)中读取的默认设置? 最佳答案 在Chris上面添加的内容上添加更多内容:映射的数量通常由输入文件中的DFSblock数量决定。虽然这会导致人们调整他们的DFSblock大小来调整map的数量。map的正确并行级别似乎是大约10-100个map/节点,尽管对于非常cpu-lightmaptask,这可以达到300左右。任务设置需要一段时间,因此最好至少花一分钟时间执行map。您可以通过修改JobConf的conf.setNumMapTask