草庐IT

平分分区

全部标签

hadoop - Hive 根据文件名创建表分区

Hadoop新手。我知道如何在Hive中创建表(语法)创建具有3个分区键的表。但key在文件名中。文件名示例:ServerName_ApplicationName_ApplicationName.XXXX.log.YYYY-MM-DD目录中有数百个文件想要创建一个表,其中包含文件名中的以下分区键:ServerName、ApplicationName、Date并将所有文件加载到表中HiveScript是首选,但对任何其他想法持开放态度(文件是CSV。我知道文件的架构(列定义)) 最佳答案 我假设文件名的格式为ServerName_Ap

hadoop - Hive - 分桶和分区

我们应该根据什么来缩小对Hive中的一组列使用分区还是分桶?假设我们有一个庞大的数据集,其中有两列最常被查询——所以我明显的选择可能是根据这两列进行分区,但如果这会导致大量小的在大量目录中创建的文件,而不是根据这些列对数据进行分区是一个错误的决定,并且分桶可能是一个更好的选择。我们能否定义一种方法来决定是否应该进行分桶或分区? 最佳答案 分桶和分区并不排斥,您可以同时使用。根据我相当长的Hive经验,我的简短回答是“您应该始终使用分区,有时您可能也想分桶”。如果您有一个大表,分区有助于减少您查询的数据量。分区通常表示为HDFS上的目

hadoop - Spark RDD 持久化和分区

例如在Spark中创建某个RDD时:lines=sc.textFile("README.md")然后在这个RDD上调用一个转换:pythonLines=lines.filter(lambdaline:"Python"inline)如果你在这个转换后的过滤器RDD上调用一个Action(例如pythonlines.first)当他们说每次你运行一个Action时RDD将被重新计算是什么意思在他们身上?我认为在您对该原始RDD调用filter转换后,您使用textFile方法创建的原始RDD不会保留。那么它是否会重新计算最近转换的RDD,在这种情况下,它是我使用过滤器转换创建的RDD?如果

apache-spark - 如何根据数据大小重新分区rdd

我正在开发SparkStreaming项目,该项目从Kafka获取数据并应用一些规则并将数据保存在Hive中。我的问题是数据摄取率不固定。60秒可能是100万条消息到来,也可能是1条。我想在Dstream上添加重新分区。因为Dstream只有3个分区,无法在一分钟内处理百万条记录。重新分区在少于20条记录时会出现问题。它在Hive中创建多个小文件。dataStream.map(_._2).repartition(20)我的问题是如何根据rdd大小对rdd进行重新分区。这样它就可以处理一条消息或100万条消息。 最佳答案 你无法以任何

mysql - sqoop导出mysql分区

我正在尝试使用sqoop从分区的配置单元表导出到mysql。起初我尝试做$sqoopexport--connectjdbc:mysql:///--username-P--tablesource_edge_daily--export-dir/path/to/table/--input-fields-terminated-by'\t'--verbose命令错误说Openfailedforfile/path/to/table//,attempttoopenadirectory当我指向分区目录时$sqoopexport--connectjdbc:mysql:///--username-P--t

hadoop - 在 MapReduce 中不运行分区器的多个 reducer

我试图理解在MR作业中运行多个reducer的概念,并了解到它是分区器决定哪个(键,值)对进入哪个reducer。我的问题是:我们可以在不运行partitioner的情况下运行多个reducer吗?那是一个有效的场景吗? 最佳答案 将分区器视为决定哪个化简器(桶)将处理映射器的特定键值(元素)输出的实体。默认的分区器使用键的散列函数在reducer中划分元素。打个比方,核心javamapcollection是如何使用hash函数来决定元素(key-value)的bucket(reducer)。在此过程中,它保证将相同键发送到单个re

hadoop - 自定义分区程序错误

我正在编写自己的自定义Partitioner(旧Api),下面是我扩展Partitioner类的代码:publicstaticclassWordPairPartitionerextendsPartitioner{@OverridepublicintgetPartition(WordPairwordPair,IntWritableintWritable,intnumPartitions){returnwordPair.getWord().hashCode()%numPartitions;}}设置JobConf:conf.setPartitionerClass(WordPairPartit

hadoop - hive 中的分区和分桶有什么区别?

这个问题在这里已经有了答案:WhatisthedifferencebetweenpartitioningandbucketingatableinHive?(8个答案)关闭7年前。我不清楚hive中的分区和分桶之间的区别,如果您能提供一些详细信息和示例,我将不胜感激。

Hadoop - sqoop 导出/导入分区表

谁能解释一下如何将分区表从hive导出到MYSQL数据库?如何从mysql导入到hive分区表?我已经阅读了google中的文档,但不确定可以使用的最新技术。谢谢 最佳答案 sqoop到hive分区导入1。在mysql中创建一个包含4个字段(id、姓名、年龄、性别)的表CREATETABLE`mon2`(`id`int,`name`varchar(43),`age`int,`sex`varchar(334))2。使用csvabc.csv将数据插入mysql表1,mahesh,23,m2,ramesh,32,m3,prerna,43,

amazon-s3 - 我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用?

我有一个s3存储桶,其中包含大约300gb的日志文件,没有特定的顺序。我想使用日期时间戳对这些数据进行分区以便在hadoop-hive中使用,以便与特定日期相关的日志行集中在同一个s3“文件夹”中。例如,1月1日的日志条目将位于与以下命名匹配的文件中:s3://bucket1/partitions/created_date=2010-01-01/file1s3://bucket1/partitions/created_date=2010-01-01/file2s3://bucket1/partitions/created_date=2010-01-01/file3等等转换数据的最佳方式