草庐IT

parquet-mr

全部标签

hadoop - 如何每天将增量记录从 Oracle 加载到 HDFS,我们可以使用 Sqoop 或 MR Jobs。哪个是首选方法

如何每天从Oracle加载增量记录到HDFS?我们可以使用Sqoop或MRJobs吗? 最佳答案 Sqoop正是为此目的而设计的,并且会导致MR作业完成复制数据的工作。有多种方法可以确定Oracle表中的新内容,例如使用表的ID,或者可能使用日期修改字段(如果有的话)。与Hadoop中的大多数东西相比,Sqoop相当简单。这是文档的链接——搜索“增量”或从第7.2.9节开始了解更多信息。http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html仅供引用一旦您使其正常工作,请查看设计用

hadoop - 如何从 Java 中的 Avro-Parquet 文件中读取特定字段?

如何从java中的avro-parquet文件中读取字段的子集?我想我可以定义一个avro模式,它是存储记录的一个子集,然后读取它们……但我得到一个异常。这是我尝试解决它的方法我有2个avro模式:A级B级ClassB的字段是ClassA的子集。finalBuilderbuilder=AvroParquetReader.builder(files[0].getPath());finalParquetReaderreader=builder.build();//AvroParquetReaderreaderA=newAvroParquetReader(files[0].getPath()

hadoop - Spark Avro 到 Parquet Writer

问题:对象不可序列化能否请您看看如何解决这个问题。能够像正确打印一样正确阅读它。但是在将记录写入Parquet时对象不可序列化causedby:java.io.NotSerializableException:parquet.avro.AvroParquetWriterSerializationstack:-objectnotserializable(class:parquet.avro.AvroParquetWriter,value:parquet.avro.AvroParquetWriter@658e7ead)请查看并告诉我最好的方法是什么。代码:将Avro记录转换为Parquet

Hadoop 独立实例在执行 MR 作业期间退出,日志中出现 ExpiredTokenRemover 错误(在少数作业成功执行后)

Hadoop/HDFS进程退出(所有jps守护程序),并且当它运行MR作业时,在少数作业成功完成后,用户被从终端抛出。错误:2016-07-2317:56:16,258错误org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager:ExpiredTokenRemover收到java.lang.InterruptedException:sleep中断日志文件:/usr/local/hadoop/logs/yarn-hduser-resourcemanager-KMUbLptp.log20

python - 来自 Spark 的 Parquet 文件被检测为 Linux 中的目录

我正在尝试使用Python的parquet模块来读取从本地MapR实例编写的一些Parquet文件。我用来输出这些parquet文件的命令是:df.sqlContext.sql("SQLHERE").write.format("parquet").option("mergeSchema","true").save("/path/to/parquet/test.parquet")这是文件在我的Linux主机上的样子:drwxr-xr-x2maprmapr403Oct513:56igayfvpwrs.parquet不幸的是,当我在这里使用Python(https://pypi.python

hadoop - Parquet 格式的 hive1.1 不支持日期数据类型?

我正在使用来自clouderaCDH5.5的配置单元1.1当我尝试创建如下所示的配置单元内部表时,出现以下错误。hive>createtableacct_IK(acct_idint,acct_nameString,trans_dtdate)>storedasparquet;FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.java.lang.UnsupportedOperationException:Parquetdoesnotsupportdate.SeeHIVE-6384我需要将配

java - 如何使用 Java 在 HDFS 中创建和填充 Parquet 文件?

在没有Hive或Impala库支持的情况下,使用Java在HDFS中创建和填充Parquet文件的最佳方法是什么?我的目标是将一个简单的csv记录(字符串)写入位于HDFS中的Parquet文件。之前提出的所有问题/答案都令人困惑。 最佳答案 好像parquet-mr是要走的路。他们提供Thrift和Avro的实现。自己的实现应该基于ParquetOutputFormat可能看起来类似于AvroParquetOutputFormat和AvroWriteSupport进行实际转换。 关于j

hadoop - 当 parquet 使用 Snappy 算法而不是 gzip 时,将 parquet 数据写入 hive 的 spark 作业卡在了最后一个任务中

我正在将一个Parquet文件从DataFrame写入Hive。当我使用snappy作为parquet压缩算法时,我可以看到所有任务,但1个任务在写作阶段迅速完成(例如30/31)。由于大量的gc进程,最后一项任务需要很长时间才能完成。当我使用gzip作为parquet压缩算法时,一切都会正常。我想知道两种压缩算法有什么不同。 最佳答案 gzip自然受到Hadoop的支持。gzip基于DEFLATE算法,它结合了LZ77和霍夫曼编码。GZIP压缩比Snappy使用更多CPU资源,但提供更高的压缩率。GZip通常是冷数据的好选择,不经

java - 在 native Java map reduce 中将 Parquet FIXED_LEN_BYTE_ARRAY 转换为 DECIMAL

我的底层数据是使用HIVE输出格式(org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat)编写的尝试使用nativeJavaMapreduce读取此数据byte[]b=value.getBinary(value.getType().getFieldIndex(field),0).getBytes();HiveDecimalhd=HiveDecimal.create(b,true);此处的值是org.apache.parquet.example.data.Group类型hd在这种情况下变为NULL。但下面对字符串/整

hadoop - 损坏的 Parquet 文件

我在尝试使用spark读取parquet文件时遇到问题。prquet文件由sqoop创建:sqoopimport\--connectjdbc:teradata:///Database=\--connection-managerorg.apache.sqoop.teradata.TeradataConnManager\--username\--password\--tableOFFERING\--target-dir/DWH/OFFERING\--as-parquetfile\--compress\--compression-codecorg.apache.hadoop.io.compr