搞机分区

mysql - Sqoop 将数据从 MySQL 表复制到分区的 Hive 表

我写了一个Sqoop脚本:HADOOP_USER_NAME=hdfssqoopimport--connectjdbc:mysql://cmsmaster.cy9mnipcdof2.us-east-1.rds.amazonaws.com/db--usernameuser-password-file/user/password/dbpass.txt--fields-terminated-by','--target-dir/user/db/sqoop_internal--delete-target-dir--hive-import--hive-overwrite--hive-tablesqo

hadoop - Hive:为现有文件夹结构添加分区

我在HDFS中有一个如下所示的文件夹结构。但是，实际上没有使用ALTERTABLEADDPARTITION命令在表上创建分区，即使文件夹结构设置为好像表有分区也是如此。如何自动将所有分区添加到Hive表中？(Hive1.0，外部表)/user/frank/clicks.db/date=20190401/file0004.csv/date=20190402/file0009.csv/date=20190501/file0000.csv/file0001.csv...etc 最佳答案使用msck修复表命令:MSCK[REPAIR]TA

hadoop Hive section code hdfs partitioning hive-partitions

apache-spark - 如何在 Spark 中获取 hive 表的分区信息

我想像这样通过Spark执行SQL。sparkSession.sql("select*fromtable")但我想在执行前对表进行分区检查，避免全扫描。如果表是分区表，我的程序会强制用户添加分区过滤器。如果没有，可以运行。所以我的问题是如何知道一个表是否是分区表？我的想法是从Metastore读取信息。但是如何获取Metastore是我遇到的另一个问题。有人可以帮忙吗？最佳答案假设您的真正目标是限制无界查询的执行，我认为获取查询的执行计划并查看其FileScan/HiveTableScan叶节点会更容易查看是否正在应用任何分区过

何在 apache-spark section loaddate code hadoop hive-metastore

java - 重新运行 Hadoop 作业，分区的 mapoutput 是否仍会转到相同的 Reducers？

mapoutput Reducers section reducer anything java hadoop mapreduce

hadoop - Hadoop 的分区器，用于 key 的前两个单词

当我执行Hadoop流式处理时。有映射器的输出(键，值)键是用空格分隔的单词序列。我想使用返回前两个单词的哈希值的分区器。所以，实现为publicstaticclassCounterPartitionerextendsPartitioner{@OverridepublicintgetPartition(Textkey,IntWritablevalue,intnumPartitions){String[]line=key.toString().split("");Stringprefix=(line.length>1)?(line[0]+line[1]):line[0];return(p

单词 hadoop section output mapreduce

hadoop - AWS EMR Hive 分区无法识别任何类型的分区

我正在尝试处理amazons3中存储桶中的一些日志文件。我创建表:CREATEEXTERNALTABLEapiReleaseData2(messageIdstring,hostNamestring,timestampstring,macAddressstringDISTINCT,apiKeystring,userAccountIdstring,userAccountEmailstring,numFilesstring)ROWFORMATserde'com.amazon.elasticmapreduce.JsonSerde'withserdeproperties('paths'='mes

hadoop Hive string 39 code amazon-web-services amazon-s3 hiveql

apache - 没有分区的 Hive Bucketing？

我正在尝试使用桶映射连接在我的星型模式中进行查询。我有一些小维度表和一个大事实表。我会:通过FK键对事实表进行存储按ID键存储桶维度但是如果我尝试对没有任何分区的表进行存储，在插入数据后我只能在表文件夹中看到1个文件(num_files:1)。CREATETABLEuser_dimension(idSTRING,...nameSTRING)CLUSTEREDBY(id)INTO24BUCKETS;>>OKINSERTINTOTABLEuser_dimensionSELECTid,nameFROMdatasource;>>Tableuser_dimensionstats:[num_par

Bucketing apache strong section user_dimension hadoop hive

sql - 两个Hive分区可以共享一组文件吗？

一个典型的问题是一个Hive分区是否可以由多个文件组成。我的问题是相反的。多个Hive分区可以指向同一个文件吗？我将从我的意思开始，然后是用例。我的意思是:HivePartitionFileName20120101/file/location/201201/file1.tsv20120102/file/location/201201/file1.tsv20120103/file/location/201201/file1.tsv用例:在过去的许多年里，我们一直以月度格式将数据加载到Hive中。所以它看起来像这样:HivePartitionFileName201201/file/loca

Hive sql file code location hadoop partition

hadoop - 无法找到分区程序类 - Cassandra

当我在Hadoop上运行我的应用程序时，可以帮助我解决Cassandra面临的以下问题。当我运行该应用程序时，我收到以下关于我们在应用程序中提到的分区程序类的错误。Causedby:java.lang.RuntimeException:org.apache.cassandra.exceptions.ConfigurationException:Unabletofindpartitionerclass'org.apache.cassandra.dht.RandomPartitioner'atorg.apache.cassandra.hadoop.ConfigHelper.getInput

Cassandra hadoop java apache cassandra-2.0

hadoop - 如何得到最均匀的分区结果？

我不知道是否有任何算法可以为基于键的数据分区获得最佳分区(需要确保相同的结果数据集中有相同的键记录)。例如:我有一个数据集需要分成两部分:keynum_of_recordsk120k215k32k43k55有2^5种不同的分区。比如part1:k1k3k4(totalrecords:25)part2:k2k5(totalrecords20)另一个分区是:part1:k1k4(totalrecords23)part2:k2k3k5(totalrevords22)后者的划分比前者好，因为它允许记录数更均匀地分布在两部分。所以，我需要一个算法来找到最佳分区。谁能给我一些关于这个主题的建议？我

均匀 hadoop section code records partitioning partition data-partitioning hadoop-partitioning

82 83 848586 87 88