草庐IT

搞机分区

全部标签

sorting - 在 Hadoop2 中进行基准排序时出错 - 分区不匹配

我正在尝试对Hadoop2MapReduce框架进行基准测试。它不是TeraSort。但是testmapredsort。第一步创建随机数据:hadoopjarhadoop/randomwriter-Dtest.randomwrite.bytes_per_map=100-Dtest.randomwriter.maps_per_host=10/data/unsorted-datastep-2对step-1中创建的随机数据进行排序:hadoopjarhadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jarsort/da

hadoop - 如何在 hive 中删除一周中给定日期的分区

能够通过对值进行硬编码来删除一周中给定日期(即星期四)的分区。ALTERTABLElogsDROPIFEXISTSPARTITION(date=2014-10-30);如何在没有硬编码日期值的情况下删除上周四(date=2014-10-30)的分区? 最佳答案 将日期动态传递给hiveql语句的一种方法是使用配置单元变量,假设我们有名为alter.hql的配置单元脚本,其内容是:改变.hqlALTERTABLElogsDROPIFEXISTSPARTITION(date='${hiveconf:date}');您可以通过将日期变量传

hadoop - 自定义分区程序将单个 key 发送到多个 reducer ?

如果我只有一把key。我可以避免它只被发送到一个reducer(并将它分发到多个reducer)吗?我知道我可能需要第二个mapreduce程序来组合reducer输出?这是一个好方法吗?或者请告诉我是否有更好的方法? 最佳答案 我也遇到过类似的情况。我所做的是这样的:intnumberOfReduceCalls=5IntWritableoutKey=newIntWritable();Randomrandom=newRandom();publicvoidmap(LongWritablekey,Textvalue,Contextcon

hadoop - 是否可以在 Hive 中导出多个分区

是否可以在一次EXPORT中从一张表中导出多个分区?Documentation说:EXPORTTABLEtablename[PARTITION(part_column="value"[,...])]TO'export_target_path'我想[,...]意味着额外的分区列:part_column1="value",part_column2="value"不是同一分区列的不同值.是否可以使用具有多个值的一列?我的意思是这样的:part_column1="value1","value2"或part_column1="value1",part_column1="value2"?[编辑]我

hadoop - 在 Hadoop 中按小时分区会导致什么问题?

我们被告知,由于名称节点上按小时分区的内存成本,最佳做法是按天而不是按小时对Hive表进行分区。但是,将我们最大的表(每年约40TB)移动到按小时分区会有问题吗?按照我的理解,Hadoop上的每个文件都需要将6个对象的元数据存储在名称节点的内存中(1个文件+1个block)*3次复制。一个分区只是一个目录,所以我认为按小时分区会将每天的对象数量从1个增加到24个,或者说大约4个文件的成本(考虑到按小时分区的速度优势,这似乎很小)。我的理解对吗?我缺少任何主要缺点吗?我希望将目录结构从/path/to/file/2015/08/13/datafrom20150813T*.txt更改为/p

hadoop - sqoop-导出分区的Hive表

我有一个按year和week列分区的Hive表。因此内容存储在Hive仓库的多个递归目录中,在我的例子中,我有超过100个目录(分区)用于此表。在这里,我不确定如何将hive表的目录详细信息提及到sqoop-export命令的--export-dir属性。我是否必须在单独的sqoop-export命令中单独提及所有100*目录?有没有办法在单个sqoop-export命令中提及所有嵌套目录?请告诉我是否还有其他更好的方法来解决这个问题?[注意:我的环境中没有Hcatalog,我只想将“导出到hdfs目录”作为我的最后一个选项] 最佳答案

hadoop - Hive,分区表的分桶

这是我的脚本:--tablewithoutpartitiondroptableifexistsufodata;createtableufodata(sightedstring,reportedstring,citystring,shapestring,durationstring,descriptionstring)rowformatdelimitedfieldsterminatedby'\t'Location'/mapreduce/hive/ufo';--loadmydatainufodataloaddatalocalinpath'/home/training/downloads/u

hadoop - hive |无法创建分区表 |解析异常

我正在尝试从HiveCLI创建一个分区表,CREATEEXTERNALTABLEIFNOTEXISTSstocks(ymdSTRING,price_openFLOAT,price_highFLOAT,price_lowFLOAT,price_closeFLOAT,volumeFLOAT,price_adj_closeFLOAT)PARTITIONEDBY(exchangeSTRING,symbolSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';但是终端抛出异常而不是“ParseException”。错误转储,NoViableAltExcep

hadoop - HIVE 插入到动态分区表永远运行/挂起

假设我们有2个配置单元表,tableA和tableB。我正在分解表A,将它与其他几个表连接起来,然后插入到表B中。当tableB没有分区或使用静态分区完成插入时,插入工作正常。然而,当存在动态分区时,mapreduce作业甚至不会启动。它有点挂起。为了调试更多,我在初始化配置单元时设置了以下参数:-hiveconfhive.root.logger=DEBUG,console现在,我可以看到作业实际上并没有挂起。它不断打印日志,如:........16/02/1109:25:50[main]:INFOoptimizer.SortedDynPartitionOptimizer:Sorted

hadoop - 配置单元:没有位置的外部分区表

是否可以创建没有位置的外部分区表?我想稍后添加所有位置以及分区。我试过:CREATEEXTERNALTABLEIFNOTEXISTSa.b(lineSTRING)COMMENT'abc'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\n'STOREDASTEXTFILEPARTITIONEDBYday;但我得到了ParseException:在“TEXTFILE”附近的“PARTITIONED”处缺少EOF 最佳答案 我不这么认为,如alterlocation中所说.但无论如何,我认为您的查询有一些错误,