草庐IT

points_into_buffer

全部标签

mysql - hadoop/配置单元 :File is getting transforming into a directory

问题:如您所见,在输出中,input.txt已从文件变为目录。这怎么可能?在某些情况下,在配置单元中创建表的行为是否有所不同?我有以下简单的shell脚本来运行hive/hadoop脚本#!/bin/bashset-xvhadoopfs-rmr/user/myloginname/input.txthadoopfs-putinput.txt/user/myloginname/input.txthadoopfs-ls/user/myloginname/hive-S-fhive_script.hqlhadoopfs-ls/user/myloginname/hive脚本本身只是创建一个外部表c

hadoop - Spark 1.2 : Write single record into multiple files (blacklisted)

我尝试将RDD中的每条记录写入多个文件(每个黑名单一个,并按键分组)到HDFS,并在每个文件集上应用黑名单。首先,我将MultipleTextOutputFormat与keyBy结合使用,按记录中的字段对输出文件进行分组,效果很好。所以我的输出文件现在由一个键命名,来自记录,记录在这个文件中分组。但我现在的问题是,我需要在输出上应用黑名单并分别保存这些输出中的每一个。我使用一个简单的过滤器做到了这一点。现在发生的情况是,应用此文件管理器会导致作业针对x个不同的黑名单完成X次。对于大量记录,这是NotAcceptable。即使之前在Dataframe上调用缓存函数。为了弄清楚我想要什么,

postgresql - Put 请求失败 : INSERT INTO "PARTITION_PARAMS" when executing an insert. .select 包含数百个字段的查询

在带有hive3的HortonworksHDP3集群上通过Tez执行插入..选择查询,我收到以下错误:java.sql.SQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask.MetaException(message:Putrequestfailed:INSERTINTO"PARTITION_PARAMS"("PARAM_VALUE","PART_ID","PARAM_KEY")VALUES(?,?,?

java - 象夫 : Cannot convert into sequence file

我正在尝试将一些文本文件转换为象夫序列文件。所以我愿意mahoutseqdirectory-iinputFolder-ooutputFolder但我总是遇到这个异常java.lang.Exception:java.lang.RuntimeException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:403)Causedby:java.lang.RuntimeException:java.lang.refl

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

java - HBase 映射减少 : write into HBase in Reducer

我正在学习HBase。我知道如何使用HadoopMapReduce编写Java程序并将输出写入HDFS;但现在我想将相同的输出写入HBase,而不是HDFS。它应该有一些类似的代码,就像我之前在HDFS中所做的那样:context.write(key,value);谁能给我一个例子来实现这个? 最佳答案 这是一种方法:publicstaticclassMyMapperextendsTableMapper{publicvoidmap(ImmutableBytesWritablerow,Resultvalue,Contextcontex

hadoop - hive QL : split column into 2 columns and rank each column

代码selectc1,c2,c3,c4,c5,c6fromtablewherec5in('a','b')从这里开始,我想将c5列拆分为两列,然后根据它们对c6的值对它们进行排名。一列应该由所有a结果组成,另一列应该是所有b结果。我已经能够使用rank()对它们进行排名,但无法将列分开。我还没有得到其他人曾经为我工作的技术。 最佳答案 selectc1,c2,c3,c4,c5,c6,rank()over(partitionby...orderbycasewhenc5='a'then1casewhenc5='b'then2end)asr

java - 为什么 HDFS 使用 Protocol Buffer 而不是 Java 序列化 API 进行序列化?

为什么HDFS使用ProtocolBuffer而不是Java序列化API?如果我想通过Java序列化将对象从一个数据节点发送到另一个数据节点怎么办?我已经尝试了几件事,但我收到以下错误:java.io.WriteAbortedException:写入中止;java.io.NotSerializableException:java.lang.Thread 最佳答案 因为具有外部架构定义的格式(如ProtocolBuffers)比生成非常冗长文件的内置Java序列化更节省空间。HDFS可以使用不同的格式来存储数据。提供最佳空间效率同时又

hadoop - 如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的 Protocol Buffer 文件?

我想使用HadoopMap/Reduce来处理delimited使用LZO以外的东西压缩的ProtocolBuffer文件,例如xz或gzip。Twitter的elephant-bird库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作?(注意:正如您从我选择的压缩算法中看到的那样,解决方案没有必要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但应该至少允许我提到的其中之一。) 最佳答案 您可能需要查看Hadoop的RAgzip补丁,以处理大型gz

hadoop - ArrayIndexOutOfBoundsException 在 MapOutputBuffer$Buffer.write 在 MapTask (Hadoop 2.7.1)

在Hadoop2.7.1上运行的Scalding驱Action业中出现ArrayIndexOutOfBounds的情况非常奇怪。下面的映射器日志转储。看起来Equator在spill2中以某种方式设置为负数。这正常吗?2015-08-1223:39:19,649INFO[main]org.apache.hadoop.mapred.MapTask:numReduceTasks:12015-08-1223:39:20,174INFO[main]org.apache.hadoop.mapred.MapTask:(EQUATOR)0kvi469762044(1879048176)2015-08