草庐IT

分区Partition

全部标签

hadoop - 自定义分区程序错误

我正在编写自己的自定义Partitioner(旧Api),下面是我扩展Partitioner类的代码:publicstaticclassWordPairPartitionerextendsPartitioner{@OverridepublicintgetPartition(WordPairwordPair,IntWritableintWritable,intnumPartitions){returnwordPair.getWord().hashCode()%numPartitions;}}设置JobConf:conf.setPartitionerClass(WordPairPartit

hadoop - hive 中的分区和分桶有什么区别?

这个问题在这里已经有了答案:WhatisthedifferencebetweenpartitioningandbucketingatableinHive?(8个答案)关闭7年前。我不清楚hive中的分区和分桶之间的区别,如果您能提供一些详细信息和示例,我将不胜感激。

Hadoop - sqoop 导出/导入分区表

谁能解释一下如何将分区表从hive导出到MYSQL数据库?如何从mysql导入到hive分区表?我已经阅读了google中的文档,但不确定可以使用的最新技术。谢谢 最佳答案 sqoop到hive分区导入1。在mysql中创建一个包含4个字段(id、姓名、年龄、性别)的表CREATETABLE`mon2`(`id`int,`name`varchar(43),`age`int,`sex`varchar(334))2。使用csvabc.csv将数据插入mysql表1,mahesh,23,m2,ramesh,32,m3,prerna,43,

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用?

我有一个s3存储桶,其中包含大约300gb的日志文件,没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用,以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如,1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式

mysql - sqoop从hdfs导出到mysql是否保留分区

我已经创建了一个多节点hadoop集群并在其上安装了hive。另外,我在另一台远程机器上安装了MySQL。我打算将存储在HDFS中的数据导出到关系型数据库MySQL中。我研究了如何使用Sqoop完成此操作。所以我发现我需要在MySQL中创建一个表,该表具有相同顺序的目标列(与Hive中存在的一样),并具有适当的SQL类型。然后使用sqoopexport命令。我的问题是:如果表在Hive中分区,并且在MySQL中创建表时我相应地对其进行分区,sqoopexport命令会保留分区吗?我的问题类似于sqoopexportmysqlpartition.我想知道分区支持是否已添加到sqoop。这

sql - Hive 无法在 hbase 中为外部表创建分区列

我无法使用以下脚本在配置单元中创建带有分区列的外部表CREATEEXTERNALTABLEOpportunity_par(keystring,Opportunity__Idstring,Campaign__Namestring)>PARTITIONEDBY(eventDatetimestamp)>STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'>WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf2:Opportunity__Id,cf3:Campaign__Name

hadoop - Hive:一个分区中的多个文件

Hive:我可以添加位置很少的分区吗?例如,下面的查询是否有效?altertabledataaddpartition(year=2013,month=11,day=18)LOCATION'/path1/a.avro,/path2/b.avro..'; 最佳答案 是的,你可以。如果该分区已经存在于Hive(HDFS目录)中,那么您不需要运行任何hivealter命令。只需使用hadoop-fsput..例如你有一个hive分区表test(按dt分区):/用户/配置单元/仓库/测试/dt=20131216与文件:/user/hive/w

hadoop - 如何使用 pig 以 RC 格式存储分区数据?

我想知道是否有UDF或其他东西可以以RC格式以分区方式存储我的数据。我知道有org.apache.pig.piggybank.storage.MultiStorage但它只对某些压缩格式有效。我想以RC格式存储我的数据,但使用MultiStorage提供的相同分区存储结构。谢谢,伊姆蒂亚兹 最佳答案 piggybank或其他替代方案都没有这样的解决方案。我遇到过类似的问题。但由于其他一些要求而放弃了实现。唯一可用的解决方案是扩展MultiStorageudf以提供RC存储格式。Twitter已开源其RC文件存储。你可以从中得到帮助。

hadoop - 如何在查询 Cassandra 时指示 Hive 使用分区/主键

我们正在运行DatastaxEnterprise4.0.1并尝试针对Cassandra中的CF运行不同的M/R作业。我们这样设置了列族:CREATETABLEpageviews(websitetext,datetext,createdtimestamp,browser_idtext,iptext,referertext,user_agenttext,PRIMARYKEY((website,date),created,browser_id))WITHbloom_filter_fp_chance=0.001000ANDcaching='KEYS_ONLY'ANDcomment=''ANDd

hadoop - 如何将配置单元分区读入 Apache Crunch 管道?

我能够将hdfs中的文本文件读取到apache处理管道中。但现在我需要读取配置单元分区。问题是根据我们的设计,我不应该直接访问该文件。因此,现在我需要一些方法来使用HCatalog之类的东西访问分区。 最佳答案 您可以使用org.apache.hadoop.hive.metastoreAPI或HCatAPI。下面是一个使用hive.metastore的简单示例。除非您想加入映射器/缩减器中的某个Hive分区,否则您必须在开始管道之前或之前调用。HiveMetaStoreClienthmsc=newHiveMetaStoreClien