草庐IT

parquet-format

全部标签

hadoop - 执行 hadoop namenode -format

我正在尝试在hadoop上工作,因此我使用:-Java1.6Eclipse欧罗巴3.3.2安装Cygwinhadoop0.19.1当我使用命令时发生错误:-$hadoop-*/bin/hadoopnamenode-format/home/user/hadoop-0.19.1/bin/../conf/hadoop-env.sh:line2:$'\r':commandnotfound/home/user/hadoop-0.19.1/bin/../conf/hadoop-env.sh:line7:$'\r':commandnotfound/home/user/hadoop-0.19.1/bi

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件,然后通过hive将其作为外部表读取。在编写Parquet文件时,我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201,萨蒂什,25岁1202,克里希纳,28岁1203,阿米斯,39岁1204,贾韦德,231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

hadoop - Parquet 行组比文件中预期的太多

我目前正在使用mapreduce编写parquet,我将行组大小配置为256M,hdfsblock大小也设置为256M。输出文件大小约为每个文件1G。所以我应该期望生成的文件中有4个行组。但是当我使用时:parquet-tools元路径/to/my/file|grep“行组”它给了我63个不同大小和行数的行组:rowgroup1:RC:69816TS:244168913rowgroup2:RC:35111TS:117407826rowgroup3:RC:18488TS:60107388rowgroup4:RC:10357TS:33260415rowgroup5:RC:7905TS:24

hadoop - HIVe - 创建表为 - 从现有表创建 Parquet 表时出错

我使用CTAS从现有表(订单)创建了一个Parquet表(orders_parquet),如下所示:CREATETABLEorders_parquetROWFORMATSERDE'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetO

Hadoop 2.9.0 - hadoop namenode -format 和 hdfs-site.xml dfs.namenode.name.dir

我的第一个问题,我会尽量不把事情搞砸:)出于学习目的,我正在4节点集群上安装Hadoop2.9.0。我已经按照官方ApacheHadoop2.9.0文档和一些谷歌页面开始安装/配置名称节点。我像这样编辑了位于$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml:dfs.namenode.name.dirfile:///apps/hdfs/namenode/datadfs.datanode.data.dirfile:///apps/hdfs/datanode/datadfs.namenode.checkpoint.dirfile:///apps/hdfs/na

hadoop - 在具有 JSON 数据的 Parquet 文件上创建 Hive 表

我要达到的目标从源大JSON文件中获取数据(employee-sample.json)一个简单的spark应用程序,将其作为文本文件读取并存储在parquet(simple-loader.java)中。我不知道JSON文件中有什么,所以我不能放置任何模式,所以我想要读取模式,而不是写入模式。一个包含一列名为“值”的Parquet文件,其中包含已创建的JSON字符串在parquet文件上创建一个HIVE外部表,当我执行“select*fromtable”时,我看到一列带有JSON数据。我真正需要的是创建一个HIVE表,它可以读取“值”列中的JSON数据并应用架构和发出列,这样我就可以根据

hadoop - 将 Hive 分区表存储为 Parquet 时计数器组过多

我创建了一个以id作为其分区的表样本,并将其以parquet格式存储。createtablesample(uuidString,dateString,NameString,EmailIDString,CommentsString,CompanyNameString,countryString,urlString,keywordString,sourceString)PARTITIONEDBY(idString)Storedasparquet;然后我使用下面的命令将值插入其中INSERTINTOTABLEsamplePARTITION(id)Selectuuid,date,Name,Em

hadoop - ORC 或 Parquet 格式的灵活架构?

我的Java应用程序使用实时数据,然后发布到S3上的ORC文件问题在于,在我们处理所有记录之前,我们不知道文件的模式,而不是第一个记录例如:消息1具有属性A和B消息2具有属性A、B和C消息3具有属性A和C因为这是一个实时应用程序,所以我不希望处理所有消息来计算架构,因为那样会很慢是否可以在我们处理数据时添加到架构中?我看过Java示例here但我没有办法Parquet在这里会更好吗? 最佳答案 我认为您可能正试图在方孔中安装圆钉。听起来您正在摄取具有未知架构的事件流,并且您希望以针对已知架构优化的格式存储它。我想您可以在跟踪模式的同

apache-spark - Spark 根据字母分区写入 Parquet

我对这个话题做了很多研究。我有一个3TB大小的数据集。以下是该表的数据架构:root|--user:string(nullable=true)|--attributes:array(nullable=true)||--element:string(containsNull=true)每天,我都会得到一份我需要其属性的用户列表。我想知道我是否可以将上述模式写入包含前2个用户字母的Parquet文件。例如,Omkar|[a,b,c,d,e]Mac|[a,b,c,d,e]Zee|[a,b,c,d,e]Kim|[a,b,c,d,e]Kelly|[a,b,c,d,e]在上面的数据集上,我可以做这

hadoop - 将 parquet-tools 与 Kerberos CDH 结合使用

我正在尝试从parquet文件中发现模式。我尝试使用代码:parquet-toolsschemahdfs://:8020///.parquet但是我得到了错误:SIMPLEauthenticationisnotenabled.Available:[TOKEN,KERBEROS]有谁知道如何在Kerberized环境中使用parquet-tools。我有带权限的keytab,我在knit命令之前运行。 最佳答案 hadoop.security.authentication的配置可以取值SIMPLE或KERBEROS。从你得到的错误来看