草庐IT

parquet-format

全部标签

scala - 如何使用 `ssc.fileStream()` 读取 Parquet 文件?传递给 `ssc.fileStream()` 的类型是什么?

我对Spark的理解fileStream()方法是将三种类型作为参数:Key,Value,和Format.对于文本文件,适当的类型是:LongWritable,Text,和TextInputFormat.首先,我想了解这些类型的本质。凭直觉,我猜Key在本例中是文件的行号,Value是那一行的文字。因此,在以下文本文件示例中:HelloTestAnotherTestDStream的第一行会有一个Key的1(0?)和一个Value的Hello.这是正确的吗?我的问题的第二部分:我查看了ParquetInputFormat的反编译实现我注意到一些奇怪的事情:publicclassParqu

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗?

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换,因此它不能是S3的直接副本。我将使用Spark来访问数据,但我想知道是否可以不使用Spark来处理它,写回S3,然后复制到Redshift,如果我可以跳过一个步骤,运行查询以提取/转换数据,然后将其直接复制到Redshift? 最佳答案 没问题,完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

hadoop - 在 HBase 与 Parquet 文件中存储数据

我是大数据的新手,正在尝试了解保存和检索数据的各种方式。我知道Parquet和HBase都是面向列的存储格式,但Parquet是面向文件的存储,而不是与HBase不同的数据库。我的问题是:使用Parquet代替HBase的用例是什么是否有Parquet可以与HBase一起使用的用例。在执行连接的情况下,Parquet的性能会比HBase(比如,通过像Phoenix这样的SQL皮肤访问)? 最佳答案 正如您已经提到的,parquet是一种存储,而HBase是存储(HDFS)+查询引擎(API/shell),因此应该在parquet+I

hadoop - 如何在Parquet中输出多个s3文件

写入Parquet数据可以通过如下方式完成。但是,如果我试图写入多个文件,而且还想输出到多个s3文件,以便读取单个列不会读取所有s3数据,这怎么办?AvroParquetWriterwriter=newAvroParquetWriter(file,schema);GenericData.Recordrecord=newGenericRecordBuilder(schema).set("name","myname").set("favorite_number",i).set("favorite_color","mystring").build();writer.write(record)

hadoop - 为 parquet 文件生成元数据

我有一个构建在大量外部Parquet文件之上的配置单元表。Parquet文件应该由spark作业生成,但由于将元数据标志设置为false,它们没有生成。我想知道是否有可能以某种无痛的方式恢复它。文件结构如下:/apps/hive/warehouse/test_db.db/test_table/_SUCCESS/apps/hive/warehouse/test_db.db/test_table/_common_metadata/apps/hive/warehouse/test_db.db/test_table/_metadata/apps/hive/warehouse/test_db.d

hadoop - 我们可以直接将 Parquet 文件加载到 Hive 中吗?

我知道我们可以使用SparkSQL和Impala加载parquet文件,但想知道我们是否可以使用Hive做同样的事情。我已经阅读了很多文章,但我仍然感到困惑。简单地说,我有一个parquet文件-比如users.parquet。现在我对如何从users.parquet加载/插入/导入数据到配置单元(显然是到表中)感到震惊。如果我遗漏了一些明显的东西,请告诉我或指出正确的方向。Creatinghivetableusingparquetfilemetadatahttps://phdata.io/examples-using-textfile-and-parquet-with-hive-an

hadoop - 命令 "hadoop namenode -format"将做什么

我正在尝试通过遵循教程并尝试在我的机器上执行伪分布式模式来学习Hadoop。我的core-site.xml是:fs.default.namehdfs://localhost:9000Thenameofthedefaultfilesystem.AURIwhoseschemeandauthoritydeterminetheFileSystemimplementation.我的hdfs-site.xml文件是:dfs.replication1Theactualnumberofreplicationscanbespecifiedwhenthefileiscreated.我的mapred-sit

hadoop - 没有 Hadoop 的 Parquet ?

我想在我的一个项目中使用parquet作为列式存储。但我不想依赖hadoop/hdfs库。是否可以在hdfs之外使用Parquet?或者最小依赖性是多少? 最佳答案 调查同样的问题我发现目前显然是不可能的。我找到了这个gitissue,建议将parquet从hadoopapi中分离出来。显然还没有完成。在ApacheJira中我发现了一个issue,它要求一种在hadoop之外读取parquet文件的方法。在撰写本文时尚未解决。编辑:github上不再跟踪问题(上面的第一个链接已失效)。我发现的一个较新的问题位于apache'sJi

Flink系列之:Table API Connectors之JSON Format

Flink系列之:TableAPIConnectors之JSONFormat一、JSONFormat二、依赖三、创建一张基于JSONFormat的表四、Format参数五、数据类型映射关系一、JSONFormatJSONFormat能读写JSON格式的数据。当前,JSONschema是从tableschema中自动推导而得的。二、依赖为了使用Json格式,使用构建自动化工具(例如Maven或SBT)的项目和带有SQLJAR包的SQL客户端都需要以下依赖项。dependency>groupId>org.apache.flinkgroupId>artifactId>flink-jsonartifa

php - 在 HH :MM format php 中获取时间差

我怎样才能让它输出HH:MM格式?$to_time=strtotime("2008-12-1310:42:00");我从中得到的是1299分钟但我不知道如何让它输出21小时:41分钟 最佳答案 首先,8:21:00将被解释为上午8点,除非您使用DateTime::createFromFormat()另行指定。要计算时差,请使用DateTime::diff():$to=newDateTime("2008-12-1310:42:00");$from=newDateTime("2008-12-148:21:00");$stat=$to->