parquet-format

hadoop - 使用 Apache Spark Streaming 和 Dataframes 交互式搜索 Parquet 存储的数据

我有大量数据作为Parquet文件存储在我的HadoopHDFS上我正在使用Spark流以交互方式接收来自Web服务器的查询，并将接收到的查询转换为SQL，以便使用SparkSQL在我的数据上运行。在此过程中，我需要运行多个SQL查询，然后通过合并或减去各个查询的结果来返回一些聚合结果。有没有什么方法可以优化和提高流程速度，例如，对已收到的数据帧而不是整个数据库运行查询？有没有更好的方式来交互查询Parquet存储的数据并给出结果？谢谢! 最佳答案如果您在同一个RDD上运行多个查询，您可以通过在查询之前使用.cache()缓存RD

hadoop - Sqoop + S3 + Parquet 导致 Wrong FS 错误

尝试使用Sqoop将Parquet格式的数据导入S3时，如下:bin/sqoopimport--connect'jdbc:[conn_string]'--table[table]--target-dirs3a://bucket-name/--hive-drop-import-delims--as-parquetfile...我收到以下错误:ERRORtool.ImportTool:ImportedFailed:WrongFS:s3a://bucket-name/,expected:hdfs://localhost:9000我在导入非parquet数据或直接通过HDFS使用s3a时没有问

amp Parquet section code stackoverflow hadoop amazon-s3 sqoop

scala - 使用 Spark 将 csv.gz 文件转换为 Parquet

我需要使用Spark(首选Scala)将AWSS3和HDFS中文件夹中的csv.gz文件转换为Parquet文件。数据的一列是时间戳，我只有一周的数据集。时间戳格式为:'yyyy-MM-ddhh:mm:ss'我想要的输出是，对于每一天，都有一个文件夹(或分区)，其中包含该特定日期的Parquet文件。所以会有7个输出文件夹或分区。我对如何执行此操作只有一个模糊的想法，我脑子里只有sc.textFile。Spark中是否有可以转换为Parquet的函数？我如何在S3和HDFS中实现它？谢谢你的帮助。最佳答案如果您查看SparkDa

Parquet scala section Spark hadoop amazon-s3 apache-spark

hadoop - 具有复杂数据类型的 parquet 格式的 Hive DDL

有人可以帮我为这个以Parquet格式处理和存储的数据集创建HiveDDL吗。属性:{"freq":"8600","id":"23266","array":[{"ver":"201.0.0.F","key_ver":"201.0.0.F","key":"001I1SS","code":"ACDEE","prod_code":"DSADVVSS","prod_key":"001123"}],"ipm":null,"offline":"1234234209600"} 最佳答案 CREATETABLEmy_table(freqINT,id

parquet hadoop 34 code section hive ddl

sql - 尝试将数据从 Impala Parquet 表复制到非 Parquet 表

我在Impala中移动数据，而不是我的设计，我丢失了一些数据。我需要将数据从Parquet表复制回它们原来的非Parquet表。最初，开发人员使用脚本中的一个简单的一行来完成此操作。由于我对数据库一无所知，尤其是对Impala，我希望你能帮助我。这是用于转换为我需要反转的Parquet表的一行。impalaShell-iusedbINVALIDATEMETADATA;CREATETABLELIKESTOREDASPARQUETTABLE;INSERTOVERWRITESELECT*FROM;谢谢。最佳答案你有没有试过简单地做CR

Parquet Impala section table sql hadoop

hadoop - 如何从 Java 中的 Avro-Parquet 文件中读取特定字段？

如何从java中的avro-parquet文件中读取字段的子集？我想我可以定义一个avro模式，它是存储记录的一个子集，然后读取它们……但我得到一个异常。这是我尝试解决它的方法我有2个avro模式:A级B级ClassB的字段是ClassA的子集。finalBuilderbuilder=AvroParquetReader.builder(files[0].getPath());finalParquetReaderreader=builder.build();//AvroParquetReaderreaderA=newAvroParquetReader(files[0].getPath()

Avro-Parquet Parquet code ClassB ClassA hadoop apache-spark avro

hadoop - Spark Avro 到 Parquet Writer

问题:对象不可序列化能否请您看看如何解决这个问题。能够像正确打印一样正确阅读它。但是在将记录写入Parquet时对象不可序列化causedby:java.io.NotSerializableException:parquet.avro.AvroParquetWriterSerializationstack:-objectnotserializable(class:parquet.avro.AvroParquetWriter,value:parquet.avro.AvroParquetWriter@658e7ead)请查看并告诉我最好的方法是什么。代码:将Avro记录转换为Parquet

Parquet hadoop section avro apache-spark hdfs

python - 来自 Spark 的 Parquet 文件被检测为 Linux 中的目录

我正在尝试使用Python的parquet模块来读取从本地MapR实例编写的一些Parquet文件。我用来输出这些parquet文件的命令是:df.sqlContext.sql("SQLHERE").write.format("parquet").option("mergeSchema","true").save("/path/to/parquet/test.parquet")这是文件在我的Linux主机上的样子:drwxr-xr-x2maprmapr403Oct513:56igayfvpwrs.parquet不幸的是，当我在这里使用Python(https://pypi.python

Parquet python mapr rwxr-xr-x hadoop apache-spark

hadoop - 启动 hdfs namenode -format 时出错

我在启动时在远程服务器上安装hadoophdfs名称节点格式出现错误java.net.UnknownHostException:Web:Web:unknownerror我已经配置了所有需要的文件16/10/1414:28:38INFOnamenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingNameNodeSTARTUP_MSG:host=java.net.UnknownHostException:Web:Web:unkno

时出 namenode hadoop share opt

hadoop - Parquet 格式的 hive1.1 不支持日期数据类型？

我正在使用来自clouderaCDH5.5的配置单元1.1当我尝试创建如下所示的配置单元内部表时，出现以下错误。hive>createtableacct_IK(acct_idint,acct_nameString,trans_dtdate)>storedasparquet;FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.java.lang.UnsupportedOperationException:Parquetdoesnotsupportdate.SeeHIVE-6384我需要将配

不支 Parquet section 配置单 hive hadoop

70 71 727374 75 76