草庐IT

item_dim_key

全部标签

mysql - sqoop merge-key 创建多个部分文件而不是一个不符合使用 merge-key 目的的文件

理想情况下,当我们在不使用merge-key的情况下运行增量时,它将创建带有附加数据集的新文件,但如果我们使用merge-key那么它将创建新的整体数据集仅包含一个文件中的前一个数据集。但是当我在我的sqoop作业中使用incrementalappend时,我没有得到一个零件文件。以下是我的步骤:1)初始数据:mysql>select*fromdepartments_per;+---------------+-----------------+|department_id|department_name|+---------------+-----------------+|2|Fit

python - 如何使用 Group_Map 使用 Python 3 修复 Spark.SQL 中的 "Cannot use null as map key!"错误

我正在使用Spark.SQL并尝试使用MAP语句创建一个数据透视表,以便将一列的值作为不同的列。我用这个查询准备了第一个表:spark.sql("""CREATETABLETABLE_01STOREDASPARQUETASselectROWS,COLUMNS,count(*)asNUM_ROWSfromTABLE_00groupbyROWS,COLUMNSorderbyROWS,COLUMNS""")想法是将其转换为:ROWSCOLUMNSNUM_ROWSVALUE1COL22VALUE1COL350VALUE2COL120VALUE2COL21VALUE2COL330进入这个:COL

hadoop - Mapreduce - 无法获得正确的 key

您好,我正在编写mapreduce代码来查找最高温度。问题是我获得了最高温度但没有相应的key。publicstaticclassTemperatureReducerextendsReducer{Textyear=newText();intmaxTemperature=Integer.MIN_VALUE;publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{for(IntWritablevalTemp:values){maxTemperature=Mat

linux - fedora 中没有 authorized_keys 文件

您好,我正在我的机器上安装hadoop,我创建了一个新组和组下的一个用户[hduser@localhost~]$ssh-keygen-trsa-P""Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/home/hduser/.ssh/id_rsa):Createddirectory'/home/hduser/.ssh'.Youridentificationhasbeensavedin/home/hduser/.ssh/id_rsa.Yourpublickeyhasbeensavedin/home/hduse

hadoop - 将基于 Mahout Item 的推荐器输出格式更改为表格

我正在使用基于MahoutItem的推荐算法,最后当我们得到“XXX[y:z,y2;z2......]”格式的结果时。我想在其上创建一个表格,格式为:XXXyzXXXy2z2为此我正在使用HIVE。所以我创建了一个表,然后使用“explode()”函数,但问题是“[”也出现在结果中作为XXX[yz..XXXyzn]如何从结果中删除括号。 最佳答案 我会使用regexp_replace函数(documentation)过滤掉方括号,然后像您已经做的那样使用explode。 关于hadoop

hadoop - PIG - HBASE - HBaseStorage key 过滤器(gt,lt)

在PIG脚本中,我使用HBaseStorage从HBase表加载所有行。但是,我想通过行键过滤行。我查看了源代码,我可以通过构造函数发送-gt&-lt。但是,我不知道如何将我的值传递给构造函数。它是一个字节[]...这里是我所在的地方:LOAD'hbase://TABLE'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('CF:I','-casterHBaseBinaryConverter')AS(product_id:bytearray);如果可能,请提供示例代码... 最佳答案

hadoop - 自定义分区程序 : N number of keys to N different files for word count

您好,我正在学习hadoop,我想要一个关于如何使用自定义partioner解决字数统计问题的示例。我希望将缩减器设置为26,以便所有以“A”开头的字符都将转到第一个缩减器,所有字符“B”将转到第二个缩减器,依此类推....公共(public)类PersonPartitioner扩展了Partitioner{@OverridepublicintgetPartition(Textkey,IntWritableVal,intnumOfReducer){Stringline=key.toString();String[]splits=line.trim().replaceAll("[0-9]

hadoop - pig 脚本 : Find sum of items in a group

这是我要运行的行counts=FOREACHz{sum=SUM(B::counter);GENERATEgroupasA::month,sum;};但是我收到以下错误:Invalidfieldprojection.Projectedfield[B::counter]doesnotexistinschema:group:chararray,y:bag{:tuple(A::id:chararray,A::month:chararray,B::counter:int)}.如何对这样一个包含基于一列分组的元组包的模式进行求和聚合? 最佳答案

hadoop - Hadoop map函数的 "key"参数没有使用

我一直在努力学习hadoop。在我看到的例子中(比如字数统计的例子)根本就没有使用map函数的key参数。map函数仅使用该对的值部分。所以看起来key这个参数是不需要的,其实不应该的。我在这里错过了什么?你能给我一个使用key参数的示例映射函数吗?谢谢 最佳答案 要了解key的使用,您需要了解Hadoop中可用的各种输入格式。文本输入格式-纯文本文件的InputFormat。文件被分成几行。换行符或回车符用于表示行结束。键是文件中的位置,值是文本行..NLineInputFormat-NLineInputFormat将N行输入拆分

hadoop - 我们可以在一个 map 函数中生成 2 对 (key, value) 吗?如果是如何?

我有一个userID数据集和一个与每个UserID相关的帖子。我想计算每个用户的帖子数。我还想将每个用户ID的所有帖子放在一起(将所有帖子分开一些)。有什么建议吗? 最佳答案 恕我直言,您可以有一个映射器和一个缩减器。映射器:classPostMapperextendsMappermap()可以将作为UserID(文本)的键和作为Post(文本)的值写入上下文。reducer:classPostReducerextendsReducerreduce()可以有一个可迭代循环,其中(i)一个计数的计数器对于每个获取的Post和(ii)一