Parquet_草庐IT

hadoop - 如何根据表中的数据获取 Parquet 文件名

我试图弄清楚表中存储的数据是针对特定日期条件集存储在众多Parquet文件中的哪个文件中。例如:selectfilenamesfromtablewheredateCol='1-1-2010';我记得在某个地方读到过这件事是可能的，但我想不起来了；我在别处也找不到。有人有什么想法吗？最佳答案明白了。selectdistinct(INPUT__FILE__NAME)fromtablewhereconditions; 关于hadoop-如何根据表中的数据获取Parquet文件名，我们在St

hadoop - 使用命令行 parquet-tools 查看 parquet 中的模式

我正在尝试运行parquet-tools命令仅查看我的Parquet文件的文件模式。我目前正在运行:$parquet-toolsmeta/tmp/my-file.parquet但这会显示文件架构加上数百个行组。我不想看到行组，只想看到文件架构。最佳答案尝试parquet-toolsschema/tmp/my-file.parquet 关于hadoop-使用命令行parquet-tools查看parquet中的模式，我们在StackOverflow上找到一个类似的问题：

parquet parquet-tools section hadoop

hadoop - 如何找到 Parquet 文件在生成时使用的 COMPRESSION_CODEC？

通常在Impala中，我们在将数据插入底层文件为Parquet格式的表之前使用COMPRESSION_CODEC。用于设置COMPRESSION_CODEC的命令:setcompression_codec=snappy;setcompression_codec=gzip;是否可以通过对Parquet文件进行任何类型的操作来找出使用的压缩编解码器的类型？最佳答案找到ImpalaParquet表使用的压缩算法的一种方法是通过parquet-tools.例如，此实用程序与ClouderaCDH打包在一起，否则可以从源代码轻松构建。$p

在生 COMPRESSION_CODEC section parquet hadoop impala

hadoop - 使用映射器将空值写入 Parquet 文件

我正在尝试执行以下操作:Stringx=null;Groupgroup=factory.newGroup().append("x",x);context.write(null,group)采用以下方案:StringwriteSchema="messageexample{\n"+"optionalbinaryx;\n"+"}";但是我在附加行中得到了NullPointerException。也许我在计划中遗漏了什么？最佳答案这里String对象本身是null。在写入文件系统时，它会尝试获取导致NullPointerExecepti

射器 Parquet code section String hadoop mapreduce

hadoop - Flink 转换为 parquet 错误

我正在尝试使用flink将csv文件编写为Parquet。我正在使用以下代码并收到错误。valparquetFormat=newHadoopOutputFormat[Void,String](newAvroParquetOutputFormat,job)FileOutputFormat.setOutputPath(job,newPath(outputPath))我收到以下构建错误。有人可以帮忙吗？typemismatch;found:parquet.avro.AvroParquetOutputFormatrequired:org.apache.hadoop.mapreduce.Outp

parquet hadoop code section Void apache-flink

hadoop - 我可以索引 parquet 文件中的列以使其使用 Spark 更快地连接吗

我有两个DataFrame，每个都保存在一个parquet文件中。我需要通过唯一的增量“id”列加入这两个DF。我可以在id列上创建索引以便他们可以更快地加入吗？这是代码//FirstDFwhichcontainafewthousandsitemsvaldfExamples=sqlContext.parquetFile("file:///c:/temp/docVectors.parquet")//SecondDFwhichcontains10millionitemsvaldfDocVectors=sqlContext.parquetFile(docVectorsParquet)//Da

parquet hadoop dfDocVectors section dfExamples join apache-spark

hadoop - 使用 Spark 对 Parquet 文件进行计数操作

我在HDFS中有两组相同的Parquet格式数据。一组按col1排序，另一组未排序。sorted_table约为127GB，unsorted_table约为117GB。大小在这里无关紧要。我使用SparkSQL运行了以下两个查询:selectcol1,count(*)fromsorted_tablewherecol1=someIntgroupbycol1selectcol1,count(*)fromunsorted_tablewherecol1=someIntgroupbycol1我在sparkUI上分析了这些查询，我发现对sorted_table的查询只读取了127MB的数据，而对u

Parquet hadoop code section table apache-spark

hadoop - hive 在 Spark 上。读取 Parquet 文件

我正在尝试将parquet文件读入Spark上的Hive。所以我发现我应该做这样的事情:CREATETABLEavro_testROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STOREDASAVROTBLPROPERTIES('avro.schema.url'='/files/events/avro_events_scheme.avsc');CREATEEXTERNALTABLEparquet_testLIKEavro_testSTOREDASPARQUETLOCATION'/files/events/parqu

Parquet hadoop 34 avro section hive spark-avro

python - 将数据增量写入 parquet 文件

要从pandas数据框写入parquet，我正在执行以下操作:df=pd.DataFrame(DATA)table=pa.Table.from_pandas(df)pq.write_table(table,'DATA.parquet')但是，如果我假设有1B行，那么它就不能很好地工作，而且它无法放入内存。在那种情况下，我将如何增量写入数据。例如，像这样的东西:DATA=[]BACTCH_SIZE=10000withopen('largefile.csv')asf:fornum,lineinenumerate(f):if(len(DATA)==BATCH_SIZE):pq.write_t

parquet python DATA section hadoop

hadoop - 如何将 Parquet 文件转换为 Avro 文件？

我是hadoop和大数据技术的新手。我喜欢将parquet文件转换为avro文件并读取该数据。我在几个论坛上搜索，它建议使用AvroParquetReader。AvroParquetReaderreader=newAvroParquetReader(file);GenericRecordnextRecord=reader.read();但我不确定如何包含AvroParquetReader。我不能够完全导入它。我可以使用spark-shell读取这个文件并且可以将它转换成一些JSON然后可以将该JSON转换为avro。但我正在寻找一个更简单的解决方案。最佳答

Parquet hadoop spark code spark-avro apache-spark