草庐IT

parquet-format

全部标签

scala - Spark 作业未在本地并行化(使用本地文件系统中的 Parquet + Avro)

编辑2通过将RDD重新分区为8个分区间接解决了问题。遇到avro对象不是“javaserialisable”的障碍,找到了一个片段heretodelegateavroserialisationtokryo.原来的问题依然存在。编辑1:删除了map函数中的局部变量引用我正在编写一个驱动程序,使用parquet和avroforio/schema在spark上运行计算繁重的作业。我似乎无法得到Spark来使用我所有的核心。我究竟做错了什么?是因为我已将键设置为null吗?我刚刚开始了解hadoop如何组织文件。据我所知,因为我的文件有1GB的原始数据,我应该期望看到与默认block和页面大小

hadoop - 无法查询(从 Hive)在 ​​Pig 中创建的 Parquet 文件

我已经在Pig中创建了一个Parquet文件(在目录outputset中)grunt>STOREextractedINTO'./outputset'USINGParquetStorer;该文件有1条记录,如下所示,grunt>mydata=LOAD'./outputset/part-r-00000.parquet'usingParquetLoader;grunt>dumpmydata;(val1,val2,val3)grunt>describemydata;mydata:{val_0:chararray,val_1:chararray,val_2:chararray}在此之后,我在Hi

hadoop - 找出原始 Parquet 文件的大小?

有没有办法计算出用snappy压缩的parquet文件的未压缩文件大小是多少?我在HDFS目录中有很多Parquet文件,我试图弄清楚如果该数据未压缩,是否有办法计算文件大小。 最佳答案 您可以尝试解压缩数据并查看它占用了多少空间。参见Howtodecompressthehadoopreduceoutputfileendwithsnappy?也许有一种我不知道的更优雅的方式 关于hadoop-找出原始Parquet文件的大小?,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何在 Parquet 模式定义中指定列描述

我正在使用级联将TextDelimited转换为parquet&avro文件。我无法像Avro那样为Parquet元数据中的列提供描述。当任何人使用数据集来获取有关数据集本身字段的一些描述时,这将很有帮助。下面是Parquet架构:messageLaunchApplication{requiredintfield1;requiredbinaryfield2;optionalbinaryfield3;requiredbinaryfield4;}下面是avro模式:{"type":"record","name":"CascadingAvroSchema","namespace":"","f

date - hive cast string to date in 'dd/MMM/yyyy' format order by and group by issue

我将日期存储为[27/Feb/2016:00:24:31+0530]。我想要27/Feb/2016中的日期格式,并且还想按它排序。我试过了this解决方案,但它以2016-02-27形式返回,并且也正确排序。SELECTTO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(SUBSTR(time,2,11),'dd/MMM/yyyy')))ASreal_date,urlFROMcleanned_logsORDERBYreal_dateASC;为了获得所需的格式,我尝试使用date_format()函数。它在1.2.1中不可用,所以我从1.0.1切换到它。SELECT

java - 如何在没有 spark 或框架的情况下将 parquet 文件保存在 hdfs 中?

我想使用java将parquet文件直接保存到hdfs。这是我用来生成parquet文件并将它们存储在本地的代码,但现在我想将它们存储在hdfs中。finalStringschemaLocation="/home/javier/FlinkProjects/kafka-flink/src/main/java/com/grallandco/demos/avro.json";finalSchemaavroSchema=newSchema.Parser().parse(newFile(schemaLocation));finalMessageTypeparquetSchema=newAvroS

hadoop - 如何使用配置单元 1.2 从 s3 中的 Parquet 文件创建外部表?

我在Qubole(Hive)中创建了一个外部表,它从s3读取parquet(compressed:snappy)文件,但是在执行SELECT*table_name时,我得到了所有的空值除分区列之外的列。我尝试在SERDEPROPERTIES中使用不同的serialization.format值,但我仍然面临同样的问题。在删除属性'serialization.format'='1'时,我得到了ERROR:Failedwithexceptionjava.io.IOException:Cannotreadvalueat0inblock-1infiles3://path_to_parquet/

hadoop - 如何限制配置单元中 Parquet 表的 Parquet 文件尺寸?

我正在尝试在配置单元中创建Parquet表。我可以创建它,但是当我运行analyzetablemytablecomputestatistics时;我得到这个结果:numfiles=800,numrows=10000000,totalSize=18909876rawDataSize=40000000为什么表格由800个文件组成,只有180Mb?还有一个为什么要设置文件个数?我尝试使用SETparquet.block.size=134217728但结果是一样的 最佳答案 reducer的数量决定了parquet文件的数量。检查mapre

apache-spark - PySpark:使用具有 1000 个字段但具有可变列数的行的模式创建 RDD->DF->Parquet

我正在尝试读取一个ElasticSearch索引,它有数百万个文档,每个文档都有可变数量的字段。我有一个模式,其中有1000个字段,每个字段都有自己的名称和类型。现在,当我通过ES-Hadoop连接器创建一个RDD并稍后通过指定模式转换为一个DataFrame时,它没有说-Inputrowdoesn'thaveexpectednumberofvaluesrequiredbytheschema我有几个问题。1.是否有可能有一个RDD/DF的行包含可变数量的字段?如果不是,除了为每列中缺失的字段添加空值外,还有什么替代方法?我看到默认情况下Spark将所有内容转换为StringType,因

hadoop - "hadoop namenode -format"目录格式错误

我正在尝试在CentOS6.3上安装Hadoop1.1.2.21我已经在/etc/hadoop/conf/hdfs-site.xml文件中配置了dfs.name.dirdfs.name.dir/mnt/ext/hadoop/hdfs/namenode但是当我运行“hadoopnamenode-format”命令时,它会格式化/tmp/hadoop-hadoop/dfs/name。我错过了什么? 最佳答案 我遇到了这个问题并解决了它。所以更新这个答案。确保您的环境变量HADOOP_CONF_DIR指向可以找到所有用于配置的xml文件的