草庐IT

jackson-dataformat-avro

全部标签

hadoop - 一起使用 MRUnit 和 AVRO

我创建了一个Mapper&Reducer,它使用AVRO作为输入,使用map-output和reduce输出。创建MRUnit测试时,我得到以下堆栈跟踪:java.lang.NullPointerExceptionatorg.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73)atorg.apache.hadoop.mrunit.mock.MockOutputCollector.deepCopy(MockOutputCollector.java:74)at

Hadoop Avro 文件大小问题

我有一个cronjob,每5分钟从Internet上的服务器下载zip文件(200字节到1MB)。如果我按原样将zip文件导入HDFS,我会遇到臭名昭著的Hadoop小文件大小问题。为了避免在HDFS中堆积小文件,处理zip文件中的文本数据并将它们转换为avro文件,然后每6小时等待一次将我的avro文件添加到HDFS中。使用这种方法,我设法将文件大小大于64MB的avro文件导入到HDFS中。文件大小从50MB到400MB不等。我担心的是,如果我开始构建开始进入500KBavro文件大小范围或更大的文件大小,会发生什么情况。这会导致Hadoop出现问题吗?其他人如何处理这种情况?

hadoop - 查询 avro 支持的配置单元表时出错 : java. lang.IllegalArgumentException

我正在尝试根据从BigQuery中的原始谷歌分析数据导出的avro文件在azureHDInsight上创建一个配置单元表。这似乎有效。我可以创建表,并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时,即使我只选择了两个非嵌套列,我也会收到一个错误:“java.lang.IllegalArgumentException”。这是我创建表格的方式:DROPTABLEIFEXISTSga_sessions_20150106;CREATEEXTERNALTABLEIFNOTEXISTSga_sessions_20150106ROWFORMATSERDE'org.apache.hadoo

hadoop - flume-kite-morphline : com. fasterxml.jackson.core.JsonParseException:意外的输入结束:OBJECT 的预期关闭标记

在使用flume(1.6&1.7)时遇到以下错误2016-12-0200:57:11,634(pool-3-thread-1)[WARN-org.apache.flume.serialization.LineDeserializer.readLine(LineDeserializer.java:143)]Linelengthexceedsmax(2048),truncatingline!2016-12-0200:57:11,777(pool-3-thread-1)[ERROR-org.apache.flume.source.SpoolDirectorySource$SpoolDirec

hadoop - 我们如何检查 HDFS 文件夹中是否有可用的 avro 文件?

我在HDFS文件夹/user/data/output_files/file_2017-10-18中有一些avro文件scala>valhdfsLoc="/user/data/output_files/file_2017-10-18/*.avro"hdfsLoc:String=/user/data/output_files/file_2017-10-18/*.avroscala>valconf=newConfiguration()scala>valfs=FileSystem.get(conf)scala>valresult=fs.exists(newPath(hdfsLoc))resul

hadoop - AVRO 文件上的 Hive 外部表只为所有列生成 NULL 数据

我正在尝试在使用spark-scala生成的一些avro文件之上创建一个Hive外部表。我正在使用CDH5.16,它有hive1.1、spark1.6。我创建了hive外部表,它运行成功。但是当我查询数据时,我得到所有列的NULL。Myproblemissimilartothis经过一些研究,我发现这可能是模式的问题。但是我无法在该位置找到这些avro文件的架构文件。我对avro文件类型还很陌生。有人可以帮我解决这个问题吗?下面是我的spark代码片段,我将文件保存为avro:df.write.mode(SaveMode.Overwrite).format("com.databrick

hadoop - 来自 avro 文件的 Hive 外部表

是否可以在不指定模式的情况下从avro文件在Hive1.2上创建外部表并让Hive从数据中提取它?我找到了thissolution但我想知道Hive是否可以自己提取架构。谢谢 最佳答案 Hive无法从数据中提取架构。为了使用Hive查询从HDFS中的avro文件中读取数据,Hive需要一个模式。因此,您找到的解决方案是通过使用“avro-tools”从文件中取出模式来创建外部表的正确方法。这样,架构和数据驻留在HDFS中并由Hive从那里引用。希望这对您有所帮助! 关于hadoop-来自

hadoop - 值 avro 不是 org.apache.spark.sql.DataFrameReader 的成员

我正在使用cloudera5.4.1和spark1.3.0这段代码是我写的valpath="/input/"valconf=newSparkConf().setAppName("FormSubmissions")valsc=newSparkContext(conf)valsqlConf=newSQLContext(sc)valdf=sqlConf.read.avro(path)df.foreach(println)这是我的sbt文件name:="SparkAvro"version:="1.0"scalaVersion:="2.10.4"libraryDependencies++=Seq

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据

比较将avro数据存储为ORC和Parquet格式,我成功地使用"com.twitter"%"parquet-avro"%"1.6.0"将Avro数据存储到Parquet中,但找不到任何信息或API来以ORC格式存储avro数据。ORC是否仅与Hive紧密耦合?谢谢subahsh 最佳答案 您没有说您在使用Spark,但问题已被标记,所以我假设您是。ORC文件格式目前与Spark中的HiveContext密切相关(我认为仅在1.4及更高版本中可用),但如果您创建一个Hive上下文,您应该能够将数据帧写入ORC文件你可以使用Parqu

hadoop - Impala 2.2 avro 选择 * 查询不工作

我在AmazonEMR3.10的Impala2.2中创建了外部表名称“operation_details”,它读取存储在HDFS中的avro模式和HDFS中的avro文件....我能够在该表上运行所有显示正确记录的查询当我运行selectfromoperation_details时,控制台显示::WARNINGS:Unresolvablecolumntypes(column2):declaredtype=DOUBLE,Avrotype=string无法解析的列类型(第2列):声明类型=DOUBLE,Avro类型=字符串未知的磁盘ID。这会对性能产生负面影响。检查您的hdfs设置以启用b