草庐IT

jackson-dataformat-avro

全部标签

java - NoSuchMethodError : com. fasterxml.jackson.module.scala.deser.BigDecimalDeserializer

sc.newAPIHadoopRDD不断给我错误。valhBaseRDD=sc.newAPIHadoopRDD(hbase_conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result]);java.lang.NoSuchMethodError:ava.lang.NoSuchMethodError:com.fasterxml.jackson.module.scala.deser.

hadoop - 动态模式的解决方案 - HIVE/AVRO

要求跟上目标ORC表的架构演变。我从源接收JSON事件。我们计划将它们转换为AVRO(因为它支持模式演化)。由于模式可以每天/每周更改,我们需要不断摄取新数据JSON文件,将它们转换为AVRO并将所有数据(旧/新)存储在ORC配置单元表中。我们如何解决这个问题? 最佳答案 您可以采用以下方法,这是解决此问题的众多不同方法之一。1。创建HBASE表首先读取AVRO数据并在HBASE中创建表。(您可以使用spark高效地完成此操作)即使在未来,HBASE表也会负责模式的演变。2。创建Hive包装表创建指向HBASE表的配置单元包装表(存

Hadoop自带的Serialization和AVRO序列化的关系?

我试图了解Avro并了解到它是Hadoop使用的数据序列化框架之一。在学习Hadoop的过程中,我了解到Hadoop使用的是自己的Serlization框架,而不是Java的Serialization,所以可以看到Hadoop中的Writable、WritableComparable。现在,经过AVRO之后,它说Avro被用作Serlization框架。因此我有点困惑。所以,当我们说Hadoop自己的序列化框架时,我们指的是Avro还是其他东西(它内置于“hadoop”本身)。谁能帮我理解一下? 最佳答案 Hadoop可写对象不是A

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS?

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

hadoop - Apache pig 错误 org.apache.pig.backend.hadoop.executionengine.Launcher - 错误 : org. apache.avro.file.DataFileWriter$AppendWriteException:

我正在尝试加载一些数据,按特定字段过滤并将输出存储到HDFS。我的代码如下所示:data=LOAD'$inputPath'usingAvroStorage();data=FILTERdatabycondition;STOREdataINTO'$outputPath'usingAvroStorage('schema','$SCHEMA');但我收到一条错误消息:ERRORorg.apache.pig.backend.hadoop.executionengine.Launcher-Error:org.apache.avro.file.DataFileWriter$AppendWriteEx

java - apache avro 中的 mapred 和 mapreduce 包有什么区别?

我正在从事我的项目以整合apacheavro进入我的MapR程序。然而,我很困惑与ma​​pred相比,通过使用新的ma​​preduce包。latter详细说明如何使用在不同的情况下,新的信息较少。但是我知道的是,它们分别对应hadoop的新旧接口(interface)。有没有人有使用ma​​preduce接口(interface)的经验或例子对于输入为非Avro数据的作业(例如TextInputFormat)文件输出为avro文件。 最佳答案 这两个包代表相应的Hadoopmapred和mapreduceAPI的输入/输出格式、

hadoop - 如何防止将空 Avro 文件提交到 HDFS?

我的工作是在HDFS中创建一个Avro文件,并在该文件中附加数据。然而,偶尔不会有任何数据追加,在这种情况下我不希望应用程序刷新并关闭文件,而是应该检查文件是否为空(但我假设Avro模式将被写入header所以技术上不是一个空文件)并删除该文件,如果它是空的。这对Avro+HDFS库可行吗? 最佳答案 尝试使用LazyOutputFormat在指定作业的输出格式时。它延迟创建输出,这意味着只有在输出存在时才会创建输出文件。所以不要写这样的东西:job.setOutputFormatClass(TextOutputFormat.cla

file - Avro hadoop随机访问文件

我想知道Avro是否支持随机访问或查询。例如,如果我创建一个名为B.avro的Avro文件,其中包含2个二进制文件X.png和Y.png,是否可以直接访问Y.png?无需遍历整个文件,如果有一种方法可以直接使用文件key访问文件内容,那就太好了。如果没有,是否有任何其他数据结构允许我在hadoop环境sequenceFiles,HAR中执行此操作?我基本上使用Avro作为处理hadoop中大量小文件的一种方式,但我也想查询这些文件,这使得将它们存储在更大的集合中变得困难。谢谢。 最佳答案 我不知道是否有任何OOTB特性可以让我们通过

hadoop - 图像的 Avro 文件类型?

我尝试...在Hadoop中计算这种情况。最好的文件格式是Avro还是SequenceFile,以防在HDFS中存储图像并在之后使用Python处理它们?SequenceFile是面向键值的,所以我认为Avro文件会更好用? 最佳答案 我使用SequenceFile在HDFS中存储图像,效果很好。Avro和SequenceFile都是二进制文件格式,因此它们可以高效地存储图像。作为SequenceFile中的键,我通常使用原始图像文件名。SequenceFile用于许多图像处理产品,例如OpenIMAJ。您可以使用现有工具处理Seq

hadoop - 在 Amazon S3 中创建由 Avro 文件支持的 Hive 表时出现问题

我一直在尝试在S3中创建一个由Avro文件支持的Hive表。最初,我认为这可能相对简单,但我遇到了以下错误。这是创建表的命令:setfs.s3.awsAccessKeyId=ACCESS_KEY_ID;setfs.s3.awsSecretAccessKey=SECRET_ACCESS_KEY;usesome_database;CREATEEXTERNALTABLEexperiment_with_s3_backed_dataROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'WITHSERDEPROPERTIES('av