草庐IT

parquet-format

全部标签

hadoop - 无法查询 Spark 创建的 Parquet 文件

在Spark中创建了一个parquet文件。这是代码片段parquet_file_name=os.path.join(partition,os.path.basename(fileLocation)+".parquet")dfData=sqlContext.createDataFrame(addedColumns,schema)dfData.save(parquet_file_name,"parquet","append")我可以在Spark中读取文件内容。In[1]:sqlContext=SQLContext(sc)parquetFile=sqlContext.parquetFile

hadoop - ParquetWriter 在 java 独立程序中输出空的 parquet 文件

我试图将现有的avro文件转换为parquet。但是输出的Parquet文件是空的。我不确定我做错了什么......我的代码片段:FileReaderfileReader=DataFileReader.openReader(newFile("output/users.avro"),newGenericDatumReader());SchemaavroSchema=fileReader.getSchema();//generatethecorrespondingParquetschemaMessageTypeparquetSchema=newAvroSchemaConverter().c

hadoop - 如何在 spark 中处理后发布单个 Parquet 文件

我有一个包含100,000条记录的Parquet文件。我想并行处理所有记录,我的处理将生成更多列。因此,如果我的Parquet文件有3列和100,000条记录,我的文件如下所示-colAcolBcolCaabbccaa1bb1cc1并行处理后,我想要一个包含相同列和3列的新Parquet文件。我的输出看起来像这样-colAcolBcolCcolDcolEcolFaabbccddeeffaa1bb1cc1dd1ee1ff1我想知道-在spark节点中并行运行后,如何将所有结果合并到1个parquet文件中?如何向现有文件添加更多列?如有任何帮助,我们将不胜感激。

apache-spark - 压缩ORC或parquet有什么好处

ORC和Parquet文件本身(没有其他压缩选项,如snappy)具有压缩效果(相同的数据加载到parquet文件中会比文本文件小很多),所以我会问是否需要指定压缩选项像snappy进一步压缩ORC和parquet文件,因为这些文件存储为二进制文件,也许压缩效果对二进制数据没有那么大。更新:我尝试了一个306M的文本文件,然后文字:306MParquet:323MParquet+snappy:50M从测试结果来看,parquet本身是没有压缩的,比text还要大(不知道什么原因),parquet+snappy的压缩效果很高。 最佳答案

amazon-web-services - 无法从 S3 存储桶( Parquet 文件)将数据加载到 EMR 上的 pig 中

我想从EMR上的Pig中的s3存储桶中加载数据,我的源文件格式是parquet:下面是我用过的命令:A=LOAD's3://test-1/icted/emp_db/emp_tb'USINGparquet.pig.ParquetLoader(header__change_seq:chararray,header__change_oper:chararray,header__change_mask:chararray,header__stream_position:chararray,header__operation:chararray,header__transaction_id:ch

hadoop - 以 parquet 格式文件输出配置单元结果

能否将Hive查询结果导出为parquet文件格式?我可以像这样将结果导出为tsv:INSERTOVERWRITEDIRECTORY'/home/user/events'rowformatdelimitedfieldsterminatedby'\t'但我如何告诉它以Parquet格式进行呢? 最佳答案 插入覆盖目录“EXTERNAL_DIRECTORY”存储为PARQUET从SOURCE_TABLE_NAME选择*; 关于hadoop-以parquet格式文件输出配置单元结果,我们在St

Hadoop MapReduce : Custom Input Format

我有一个文件,其中包含文本和“^”之间的数据:一些文字^在这里^还有一些^更多到这里我正在编写自定义输入格式以使用“^”字符分隔行。即映射器的输出应该是这样的:一些文字去这里还有一些更多内容在这里我编写了一个扩展FileInputFormat的自定义输入格式,还编写了一个扩展RecordReader的自定义记录阅读器。下面给出了我的自定义记录阅读器的代码。我不知道如何处理这段代码。在WHILE循环部分使用nextKeyValue()方法时遇到问题。我应该如何从拆分中读取数据并生成自定义键值?我正在使用所有新的mapreduce包而不是旧的mapred包。publicclassMyRec

hadoop - 是否可以直接从文件加载 Parquet 表?

如果我有一个二进制数据文件(它可以转换为csv格式),有没有办法直接从它加载parquet表?许多教程展示了将csv文件加载到文本表,然后从文本表加载到parquet表。从效率的角度来看,是否可以像我已有的那样直接从二进制文件加载Parquet表?理想情况下使用创建外部表命令。或者我需要先将其转换为csv文件?有文件格式限制吗? 最佳答案 不幸的是,在Impala中无法读取自定义二进制格式。您应该将文件转换为csv,然后在现有csv文件上创建一个外部表作为临时表,最后插入到从临时csv表读取的最终Parquet表中。ImpalaPa

azure - 在 Azure SQL 数据仓库中使用 Polybase 技术,我可以查询以 parquet Hadoop 格式存储的数据吗?

借助AzureSQL数据仓库中的Polybase技术,我是否可以查询以parquetHadoop格式存储的数据?感谢您的帮助。 最佳答案 目前,PolyBase不支持ApacheParquet。它在PolyBase内实现的路线图上,因为它允许用户利用Hadoop中类似于SQLDW中的柱状数据结构。感谢John提出的问题-我会将其添加到我们正在跟踪的功能请求中。更新:读写Parquet文件是nowsupported. 关于azure-在AzureSQL数据仓库中使用Polybase技术,我

hadoop - 如何在非mapreduce java程序中读取 Parquet 模式

有没有一种方法可以在不使用mapreduce的情况下通过获取元数据来直接读取Parquet文件列名。请举一些例子。我使用snappy作为压缩编解码器。 最佳答案 您可以使用ParquetFileReader或使用现有工具https://github.com/Parquet/parquet-mr/tree/master/parquet-tools用于使用命令行读取Parquet文件。 关于hadoop-如何在非mapreducejava程序中读取Parquet模式,我们在StackOver