草庐IT

avrostorage

全部标签

hadoop - Apache pig 错误 org.apache.pig.backend.hadoop.executionengine.Launcher - 错误 : org. apache.avro.file.DataFileWriter$AppendWriteException:

我正在尝试加载一些数据,按特定字段过滤并将输出存储到HDFS。我的代码如下所示:data=LOAD'$inputPath'usingAvroStorage();data=FILTERdatabycondition;STOREdataINTO'$outputPath'usingAvroStorage('schema','$SCHEMA');但我收到一条错误消息:ERRORorg.apache.pig.backend.hadoop.executionengine.Launcher-Error:org.apache.avro.file.DataFileWriter$AppendWriteEx

hadoop - 使用 piggybank 和 AvroStorage 解决 EMR 问题

我在EMR上运行一个pig脚本,它读取以Avro格式存储的数据。它一直在本地工作,但为了让脚本的其他部分在EMR上工作,我不得不将我使用的piggybank.jar恢复为0.9.2而不是0.10.0。进行该更改后,AvroStorage静默地无法读取任何数据并仅返回零记录。日志或任何内容中均未提及。这是脚本:REGISTER../../../lib/avro-1.7.0.jarREGISTER../../../lib/json-simple-1.1.1.jarREGISTER../../../lib/jackson-core-asl-1.5.2.jarREGISTER../../../

hadoop - AvroStorage - 输出文件名定义

我使用AvroStorage存储pig的结果集。有没有一种方法可以将数据存储到一个指定的avro文件中……例如OutputFileGen1?Pig将数据存储到名为OutpuFileGen1的目录中,其结构如下所示:ls-alOutputFileGen1/total20drwxr-xr-x2rootroot40962016-01-1814:35.drwxr-xr-x6rootroot40962016-01-1910:27..-rw-r--r--1rootroot40832016-01-1814:35part-m-00000.avro-rw-r--r--1rootroot402016-01

java - PIG : Cannot cast java. lang.String to org.apache.avro.util.Utf8 with AvroStorage inside STORE

我正在使用ApachePIG来减少最初以CSV格式存储的数据,并希望以Avro格式输出。我的PIG脚本的一部分调用了一个javaUDF,它将一些字段附加到输入元组并将修改后的元组传回。执行此操作时,我正在修改输出、PIG、架构:SchemaoutSchema=newSchema(input).getField(1).schema;SchemarecSchema=outSchema.getField(0).schema;recSchema.add(newFieldSchema("aircrafttype",DataType.CHARARRAY));在我的UDF的publicSc​​hem

hadoop - 指向本地文件的 AvroStorage schema_uri 不起作用

我像这样使用AvroStorage:STOREaliasINTO'$OUTPUT'USINGorg.apache.pig.piggybank.storage.avro.AvroStorage('{"index":1,"schema_uri":"file://path/schema.avsc"}');因此,从本地文件系统而不是HDFS获取schema.avsc是明确的。它在伪分布式集群中工作,但在模式文件的java.io.FileNotFoundException的普通集群上失败看起来这是在后端发生的。我假设这是因为AvroStorage在一个节点上的后端调用,与我运行pig脚本的节点不

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求,我们需要自定义使用avrostorage在pig中加载文件的方式:例如,我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是,如果

hadoop - 无法从 loadFunc org.apache.pig.builtin.AvroStorage 获取架构

我在运行pig脚本时遇到以下错误REGISTER/opt/cloudera/parcels/CDH/lib/pig/lib/avro.jarREGISTER/opt/cloudera/parcels/CDH/lib/pig/lib/json-simple-1.1.jarREGISTER/opt/cloudera/parcels/CDH/lib/pig/lib/jackson-core-asl-1.8.8.jarREGISTER/opt/cloudera/parcels/CDH/lib/pig/lib/jackson-mapper-asl-1.8.8.jarREGISTER/opt/cl