草庐IT

item_dim_key

全部标签

hadoop - 自定义分区程序 : N number of keys to N different files

我的要求是编写自定义分区程序。例如,我有N个来自映射器的键('jsa'、'msa'、'jbac')。长度不固定。事实上,它可以是任何词。我的要求是以这样一种方式编写自定义分区程序,它将所有相同的key数据收集到同一个文件中。键数不固定。在此先感谢您。谢谢,萨提斯。 最佳答案 因此,您有多个映射器正在输出的键,并且您希望每个键都有不同的缩减器,并且每个键都有一个单独的文件。因此,首先编写Partitioner可能是实现该目标的一种方式。默认情况下,hadoop有自己的内部逻辑,它在键上执行,并根据它调用reducer。因此,如果您想编

hadoop - hive 命令错误 Expression Not In Group By Key product_id

我有一个HDFS表A,写成如下格式userproductU1101U1102U1103U2101U2104U3102......................describeA;>>userstringproductint现在如果要聚合用户,将同一用户的产品归为一组,hive命令应该怎么写?selectuser,productfromAgroupbyuser;error:line1:14ExpressionNotInGroupByKeyproduct 最佳答案 您可以使用hive中的collect_set(col)函数按用户名聚合

html - 刮刀 : distinguishing meaningful text from meaningless items, hadoop

我正在尝试在ApacheNutch中构建爬虫和抓取工具,以查找包含讨论特定单词主题(例如“选举”、“选举”、“投票”等)部分的所有页面。一旦我进行了抓取,Nutch就会清除HTML中的停用词和标签,但不会删除菜单语音(在网站的每个页面中都有)。因此,当您查找所有关于选举的页面时,您可能会检索到整个网站,因为它的菜单中有“选举”一词,因此在每个页面中都有。我想知道是否存在分析网站的多个页面以了解页面的主要模板是什么的技术。有用的论文和/或实现/库。我正在考虑创建某种hadoop作业来分析多个页面之间的相似性以提取模板。但是同一个网站可能有多个模板,因此很难找到一种有效的方法来做到这一点。

security - 在 Hadoop 环境中使用多个 AWS key

在Hadoop环境中拥有多个AWSkey的解决方法是什么?我的hadoop作业需要访问两个不同的S3存储桶(两个不同的key)。尝试使用“凭据”提供者,但看起来非常有限。它以小写形式存储所有键,因此我不能将“s3a”用于一项工作而将“s3n”用于另一项工作。例如:对于s3a,它寻找:fs.s3a.access.keyfs.s3a.secret.key对于s3n:fs.s3n.awsAccessKeyIdfs.s3n.awsSecretAccessKey但是,如果我使用“fs.s3n.awsAccessKeyId”创建提供程序,它会存储为“fs.s3n.awsaccesskeyid”,因

Hadoop MapReduce : Two Keys in one line, 但是怎么办?

我有包含以分号分隔的记录的csv文件。每行是一条记录。每条线包含图的边信息。这意味着一行看起来像下面这样:Node_X;Node_Y;5它被解释为权重为5的节点x和y之间的边或链接。我的映射器获得此输入。现在我想要实现的是使用节点聚合信息。以下示例说明了我的场景:Node_X;Node_Y;5Node_X;Node_Z;10Node_X;Node_A;60Node_Y;Node_A;20那么节点的结果应该是:Node_X;75;Node_Y;25;Node_A;80我想收集所有不同的节点并将它们与其他节点的权重之和作为权重。在我的映射器中,我可以读取边缘信息:Node_X;Node_A

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

hadoop - 如何使用具有 ((key1,value),(key2,value)) 模式的 Apache Spark 查找键的所有值的总和

我有一个数据集如下-ABC(a,c,30)(a,b,20)(b,c,10)(c,d,1)现在我需要处理上述数据以获得如下输出-A列中的任何键都将乘以C的2倍B列中的任何键都将乘以C的3倍所以这里的预期输出将是-a100=30*2+20*2b80=20*3+10*2c122=30*3+10*3+1*2d3=1*3我可以像下面这样写-valx=sc.parallelize(List(("a","b",20),("b","c",10),("a","c",30),("c","d",1)))valmyVal=x.map({case(a,b,c)=>((a->2*c),(b->3*c))})myV

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

hadoop - Cassandra CQL3 复合 key 不是由 Hadoop reducer 编写的

我正在使用Cassandra1.2.8,并且有几个HadoopMapReduce作业,它们从一些CQL3表中读取行并将结果写回另一个CQL3表。如果输出CQL3表包含复合键,复合键字段的值不是由reducer写入的-相反,我在cqlsh中执行选择查询时看到这些字段的空值。如果主键不是复合键,则一切正常。具有复合键的输出CQL3表的示例:CREATETABLEevents_by_type_with_source(event_type_idASCII,periodASCII,dateTIMESTAMP,source_nameASCII,events_numberCOUNTER,PRIMAR

java - 错误 : "java.io.IOException: Type mismatch in key from map" on my MapReduce class (using Hadoop 2. 2.0)

我正在尝试通过Hadoop在本地主机上执行MapReduce程序。我写了一个程序来计算文本文件中的单词。源代码非常简单:importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg