草庐IT

提取分区

全部标签

hadoop - Spark parquet 数据帧分区数

我有一个HDFS文件夹,其中包含两个250MB的Parquet文件。hadoopdfblock大小设置为128MB。具有以下代码:JavaSparkContextsparkContext=newJavaSparkContext();SQLContextsqlContext=newSQLContext(sparkContext);DataFramedataFrame=sqlContext.read().parquet("hdfs:////user/test/parquet-folder");LOGGER.info("Nr.ofrddpartitions:{}",dataFrame.rdd

hadoop - 使用 hadoop/pig 从日志中提取相似用户

作为启动产品的一部分,我们需要计算“相似用户特征”。我们决定选择pig。我已经学习pig几天了,了解它是如何工作的。所以从这里开始是日志文件的样子。userurltimeuser1http://someurl.com1235416user1http://anotherlik.com1255330user2http://someurl.com1705012user3http://something.com1705042user3http://someurl.com1705042由于用户和url的数量可能很大,我们不能在这里使用暴力破解方法,所以首先我们需要找到至少可以访问公共(publi

kafka分区分配策略

前言现有主流消息中间件都是生产者-消费者模型,主要角色都是:Producer->Broker->Consumer,上手起来非常简单,但仍有需要知识点需要我们关注,才能避免一些错误的使用情况,或者使用起来更加高效,例如本篇要讲的kafka分区分配策略。在开始前我们先简单回顾一下kafka消息存储设计,如下图:topic是一个逻辑概念,一个topic可以包含多个partition,partition才是物理概念,kafka将partition存储在broker磁盘上。如图,test_topic只有一个partition,那么在broker上就会一个test_topic-0的文件夹。在partiti

hadoop - 如何在使用 alter drop partition 命令从托管表中删除分区时跳过垃圾箱

在使用以下命令从Hive的托管表中删除分区时,有什么方法可以跳过回收站吗?ALTERTABLEDROPPARITION()类似于我们使用hadoopfs命令删除文件时所做的事情hadoopfs-rmr-skipTrash 最佳答案 试试这套。SEThive.warehouse.data.skiptrash=true; 关于hadoop-如何在使用alterdroppartition命令从托管表中删除分区时跳过垃圾箱,我们在StackOverflow上找到一个类似的问题:

hadoop - Samza 发送消息时会自动创建分区吗?

如果您使用Samza的OutgoingMessageEnvelope使用此格式发送消息:publicOutgoingMessageEnvelope(SystemStreamsystemStream,java.lang.ObjectpartitionKey,java.lang.Objectkey,java.lang.Objectmessage)ConstructsanewOutgoingMessageEnvelopefromspecifiedcomponents.Parameters:systemStream-Objectrepresentingtheappropriatestreamo

Kafka学习笔记三(生成数据发送与分区)

Kafka学习笔记三(生成数据发送与分区)Kafka的消息从生产者到集群总共分为两个线程一个是main,一个是sendermain线程用于把消息放到RecordAccumulator寄存器中寄存sender线程会通过IO和kafkaserver进行交互发送消息首先讲main线程内KafkaProducer将发送的数据封装成一个ProducerRecord对象。内容包括:topic:string类型,NotNull。partition:int类型,可选。timestamp:long类型,可选。key:string类型,可选。value:string类型,可选。headers:array类型,Nu

hadoop - 将为配置单元中的分区表创建多少映射器和缩减器

我总是对为hive中的特定任务创建多少映射器和缩减器感到困惑。例如,如果block大小=128mb,并且有365个文件,每个文件映射到一年中的某个日期(每个文件大小=1mb)。有基于日期列的分区。在这种情况下,在加载数据期间将运行多少映射器和缩减器? 最佳答案 映射器:映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数。另见此处:https://cwiki.apache.org/confluence/display/TEZ/How+initial+task+parallelism+worksMR使

regex - Hive:在字符的第一次出现和最后一次出现之间提取字符串

我有一个Hive表列,其中的字符串由“-”分隔,我需要提取第一次和最后一次出现的“-”之间的字符串+-----------------+|col1|+-----------------+|abc-123-na-00-sf||123-abc-01-sd||123-abcd-sd|+-----------------+Requiredoutput:+-----------+|col1|+-----------+|123-na-00||abc-01||abcd|+-----------+请建议一些正则表达式来提取所需的输出。谢谢 最佳答案

scala - 在 Apache Spark 中按列分区到 S3

有我们想要从具有JSON的S3读取文件的用例。然后,基于特定的JSON节点值,我们希望对数据进行分组并将其写入S3。我能够读取数据,但找不到关于如何根据JSONkey对数据进行分区然后上传到S3的好例子。任何人都可以提供任何示例或指向可以帮助我处理此用例的教程吗?创建数据框后我得到了我的数据模式:root|--customer:struct(nullable=true)||--customerId:string(nullable=true)|--experiment:string(nullable=true)|--expiryTime:long(nullable=true)|--par

hadoop - 使用 Flume 将数据从 kafka 提取到 HDFS::ConfigurationException:必须指定引导服务器

我正在尝试使用水槽将数据从kafka源提取到hdfs。下面是我的水槽配置文件。flume1.sources=kafka-source-1flume1.channels=hdfs-channel-1flume1.sinks=hdfs-sink-1flume1.sources.kafka-source-1.type=org.apache.flume.source.kafka.KafkaSourceflume1.sources.kafka-source-1.bootstrap.servers=localhost:9092flume1.sources.kafka-source-1.zookee