jackson-dataformat-avro

hadoop - 一起使用 MRUnit 和 AVRO

我创建了一个Mapper&Reducer，它使用AVRO作为输入，使用map-output和reduce输出。创建MRUnit测试时，我得到以下堆栈跟踪:java.lang.NullPointerExceptionatorg.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73)atorg.apache.hadoop.mrunit.mock.MockOutputCollector.deepCopy(MockOutputCollector.java:74)at

Hadoop Avro 文件大小问题

我有一个cronjob，每5分钟从Internet上的服务器下载zip文件(200字节到1MB)。如果我按原样将zip文件导入HDFS，我会遇到臭名昭著的Hadoop小文件大小问题。为了避免在HDFS中堆积小文件，处理zip文件中的文本数据并将它们转换为avro文件，然后每6小时等待一次将我的avro文件添加到HDFS中。使用这种方法，我设法将文件大小大于64MB的avro文件导入到HDFS中。文件大小从50MB到400MB不等。我担心的是，如果我开始构建开始进入500KBavro文件大小范围或更大的文件大小，会发生什么情况。这会导致Hadoop出现问题吗？其他人如何处理这种情况？

Hadoop Avro section hdfs bigdata

hadoop - 查询 avro 支持的配置单元表时出错 : java. lang.IllegalArgumentException

我正在尝试根据从BigQuery中的原始谷歌分析数据导出的avro文件在azureHDInsight上创建一个配置单元表。这似乎有效。我可以创建表，并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时，即使我只选择了两个非嵌套列，我也会收到一个错误:“java.lang.IllegalArgumentException”。这是我创建表格的方式:DROPTABLEIFEXISTSga_sessions_20150106;CREATEEXTERNALTABLEIFNOTEXISTSga_sessions_20150106ROWFORMATSERDE'org.apache.hadoo

时出配置单 34 string type hadoop hive google-bigquery hadoop2 avro

hadoop - flume-kite-morphline : com. fasterxml.jackson.core.JsonParseException:意外的输入结束:OBJECT 的预期关闭标记

在使用flume(1.6&1.7)时遇到以下错误2016-12-0200:57:11,634(pool-3-thread-1)[WARN-org.apache.flume.serialization.LineDeserializer.readLine(LineDeserializer.java:143)]Linelengthexceedsmax(2048),truncatingline!2016-12-0200:57:11,777(pool-3-thread-1)[ERROR-org.apache.flume.source.SpoolDirectorySource$SpoolDirec

flume-kite-morphline JsonParseException java morphline flume hadoop jackson kite-sdk

hadoop - 我们如何检查 HDFS 文件夹中是否有可用的 avro 文件？

我在HDFS文件夹/user/data/output_files/file_2017-10-18中有一些avro文件scala>valhdfsLoc="/user/data/output_files/file_2017-10-18/*.avro"hdfsLoc:String=/user/data/output_files/file_2017-10-18/*.avroscala>valconf=newConfiguration()scala>valfs=FileSystem.get(conf)scala>valresult=fs.exists(newPath(hdfsLoc))resul

hadoop HDFS section avro output_files apache-spark

hadoop - AVRO 文件上的 Hive 外部表只为所有列生成 NULL 数据

我正在尝试在使用spark-scala生成的一些avro文件之上创建一个Hive外部表。我正在使用CDH5.16，它有hive1.1、spark1.6。我创建了hive外部表，它运行成功。但是当我查询数据时，我得到所有列的NULL。Myproblemissimilartothis经过一些研究，我发现这可能是模式的问题。但是我无法在该位置找到这些avro文件的架构文件。我对avro文件类型还很陌生。有人可以帮我解决这个问题吗？下面是我的spark代码片段，我将文件保存为avro:df.write.mode(SaveMode.Overwrite).format("com.databrick

hadoop AVRO code string hive spark-avro hive-table

hadoop - 来自 avro 文件的 Hive 外部表

是否可以在不指定模式的情况下从avro文件在Hive1.2上创建外部表并让Hive从数据中提取它？我找到了thissolution但我想知道Hive是否可以自己提取架构。谢谢最佳答案 Hive无法从数据中提取架构。为了使用Hive查询从HDFS中的avro文件中读取数据，Hive需要一个模式。因此，您找到的解决方案是通过使用“avro-tools”从文件中取出模式来创建外部表的正确方法。这样，架构和数据驻留在HDFS中并由Hive从那里引用。希望这对您有所帮助! 关于hadoop-来自

hadoop avro section Hive hiveql hortonworks-data-platform

hadoop - 值 avro 不是 org.apache.spark.sql.DataFrameReader 的成员

我正在使用cloudera5.4.1和spark1.3.0这段代码是我写的valpath="/input/"valconf=newSparkConf().setAppName("FormSubmissions")valsc=newSparkContext(conf)valsqlConf=newSQLContext(sc)valdf=sqlConf.read.avro(path)df.foreach(println)这是我的sbt文件name:="SparkAvro"version:="1.0"scalaVersion:="2.10.4"libraryDependencies++=Seq

DataFrameReader hadoop 34 spark section apache-spark apache-spark-sql avro

hadoop - 在不使用 HIVE 的情况下在 HDFS 中以 ORC 格式存储 avro 数据

比较将avro数据存储为ORC和Parquet格式，我成功地使用"com.twitter"%"parquet-avro"%"1.6.0"将Avro数据存储到Parquet中，但找不到任何信息或API来以ORC格式存储avro数据。ORC是否仅与Hive紧密耦合？谢谢subahsh 最佳答案您没有说您在使用Spark，但问题已被标记，所以我假设您是。ORC文件格式目前与Spark中的HiveContext密切相关(我认为仅在1.4及更高版本中可用)，但如果您创建一个Hive上下文，您应该能够将数据帧写入ORC文件你可以使用Parqu

hadoop HIVE section avro ORC apache-spark

hadoop - Impala 2.2 avro 选择 * 查询不工作

我在AmazonEMR3.10的Impala2.2中创建了外部表名称“operation_details”，它读取存储在HDFS中的avro模式和HDFS中的avro文件....我能够在该表上运行所有显示正确记录的查询当我运行selectfromoperation_details时，控制台显示::WARNINGS:Unresolvablecolumntypes(column2):declaredtype=DOUBLE,Avrotype=string无法解析的列类型(第2列):声明类型=DOUBLE，Avro类型=字符串未知的磁盘ID。这会对性能产生负面影响。检查您的hdfs设置以启用b

hadoop Impala section strong operation_details avro cloudera-cdh amazon-emr

62 63 646566 67 68