草庐IT

READ_WRITE

全部标签

hadoop - hive : Read a struct value inside a map in hive

我有一个包含以下数据类型的列的配置单元表:map>我正在尝试使用横向View爆炸从map中读取id的值,但它抛出了以下错误:selectvalue.idfrommy_tablelateralviewexplode(my_map)valuelimit10;FAILED:SemanticException[Error10002]:Line1:14Invalidcolumnreference'id'谁能帮我从map中读取结构值。 最佳答案 selectval.idfrommy_tablelateralviewexplode(my_map)

hadoop - Spark : Not able to read data from hive tables

我已经创建了一个Maven项目作为pom.xml1.3.0org.apache.sparkspark-core_2.11${spark.version}org.scala-langscala-libraryorg.apache.sparkspark-sql_2.11${spark.version}mysqlmysql-connector-java5.1.6-->org.apache.sparkspark-hive_2.11${spark.version}我的类(class)正在从配置单元表中读取数据:importorg.apache.spark.sql.SQLContextimport

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里?

我正在使用SparkDataframeAPI从NFS共享加载/读取文件,然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器,因此两个工作节点是YARNNodeManager节点,主节点是YarnResourceManager节点。我有一个远程位置,比如/data/files,它安装到所有三个YARN/SPARK节点,因为它是[/data/files],其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg

java - MAPREDUCE 错误 : method write in interface TaskInputOutputContext<KEYIN, VALUEIN、KEYOUT、VALUEOUT> 无法应用于给定类型

packagebr.edu.ufam.anibrata;importjava.io.*;importjava.util.ArrayList;importjava.util.Collections;importjava.util.Iterator;importjava.util.List;importjava.util.StringTokenizer;importjava.util.Arrays;importjava.util.HashSet;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoop.conf.Co

java - 在 Hadoop 中使用 context.write() 或 outputCollector.collect() 写入输出的成本?

我刚刚开始学习Hadoop,并且仍在尝试和尝试理解事物,我真的很好奇OutputCollector类collect()方法的用法,从现在开始我找到的所有示例都只调用此方法一次。如果这种方法的调用成本真的很高(因为它正在将输出写入文件)?在考虑不同的场景时,我遇到了我发现需要不止一次调用它的情况。同样明智的是下面是给定的代码片段publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvoidreduce(IntWritablekey,Iteratorvalues,OutputCollectoroutput,Re

hadoop - 无法将 TotalOrderPartitioner 与 Hive : Can't read partitions file 一起使用

我们正在尝试使用生成HBaseHfiles从Hive批量加载。我们的主要问题是,当使用org.apache.hadoop.mapred.lib.TotalOrderPartitioner;它找不到自定义分区程序文件:java.lang.IllegalArgumentException:Can'treadpartitionsfile更多详情:自定义分区程序文件是从Hive表创建的:CREATEEXTERNALTABLEnetezza.ais_lowres_mmsi_range_keys(hbase_key_range_startstring)ROWFORMATSERDE'org.apac

hadoop - Shuffle write 大和 spark task 变得超慢时的优化

有一个SparkSQL将连接4个大表(前3个表5000万,最后一个表2亿)并进行一些分组操作,消耗60天的数据。并且此SQL将需要2小时才能运行,在此期间,我检查到ShuffleWrite正在急剧增加,可能会超过200GB。相比之下,当我将消耗日期范围从60天减少到45天时,运行只需要6.3分钟。我查看了DAG图,对于45天的数据,它在最后一次sortMergeJoin之后输出了10亿条数据。谁能告诉我我可以从哪个方向优化这个场景?谢谢!附言可能的相关信息:Spark.version=2.1.0spark.executor.instances=20spark.executor.memo

java - 可以覆盖 ReduceContext 中的 context.write() 方法吗?

使用0.20.2...是否可以覆盖ReduceContext中的context.write()方法?我有一整套Reducers,我希望在每个context.write()之前都使用一个特定的函数,但我不想让他们担心这个逻辑,只是为了处理它透明地。例如:Iteratorvit=values.iterator();if(trans2!=null){key=(Text)trans2.transform(key);}while(vit.hasNext()){Textitem=vit.next();if(trans1!=null){item=(Text)trans1.transform(item

hadoop - Pig 命令问题 'Failed to read data from "/pigdata/student"'

在为关系运行dump命令时不返回任何记录,它给出:测试文件:学生vineet1hisham2raj3ajeet4sujit5ramesh6priya7priyanka8suresh9ritesh10计数器:Totalrecordswritten:0Totalbyteswritten:0SpillableMemoryManagerspillcount:0Totalbagsproactivelyspilled:0Totalrecordsproactivelyspilled:0但它包含一个数据,请帮我解决这个错误grunt>a=load'/pigdata/student';2016-08-0

hadoop - 自定义 hadoop 键和值 : How to write CompareTo() Method

我需要从映射器发出一个二维double组作为键和值。StackOverflow中发布了问题,但没有得到解答。我在给定的数据集中做一些矩阵乘法,之后我需要发出A*Atrns的值,它将是一个矩阵作为键和Atrans*D这也将是一个矩阵作为值。那么如何从映射器发出这些矩阵。并且该值应该与key本身相对应。iekey----->A*Atrans--------->aftermultiplicationtheresultwillbea2Darraywhichisdeclaredasdouble(matrix)letssaytheresultbeMatrix"Ekey"(double[][]Eke