草庐IT

KEY_DATA

全部标签

hadoop - Hadoop 中的 (key,value) 对总是 ('text' ,1) 吗?

我是Hadoop新手。你能说说(键/值)对吗?值总是一个吗?reduce步骤的输出总是一个(键/值)对吗?如果是,该(键/值)数据将如何进一步使用?请帮帮我。 最佳答案 我猜你问的是由于wordcount导致的(key,values)对的“一个”值Hadoop教程中的示例。所以,答案是否定的,它并不总是“一个”。MapReduce的Hadoop实现通过在整个工作流中传递(键,值)对来工作,从输入到输出:映射步骤:一般来说(还有其他特殊情况,取决于输入格式),映射器逐行处理分配给它们的拆分内的数据;这些行作为(key,value)对传

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群,将(日志)数据存储在hdfs中。我们获取csv格式的数据,每天一个文件。在hadoop中对这些文件运行MR作业没问题,只要文件的“架构”(尤其是列数)不变即可。但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是,这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet,并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

json - org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.data.jsonserde.json.JSONArray

我正在尝试从配置单元读取json文件。我正在使用JsonSerdeapi加载json却报错...16moreCausedby:java.lang.ClassCastException:org.openx.data.jsonserde.json.JSONObjectcannotbecasttoorg.openx.data.jsonserde.json.JSONArrayatorg.openx.data.jsonserde.objectinspector.JsonListObjectInspector.getList(JsonListObjectInspector.java:38)ator

hadoop - HDFS 加密错误 | root 不允许做 'CREATE_KEY'

我正在使用HDP沙箱,并将RangerKMS安装为KMS服务器。我在沙盒上触发了以下命令。hadoopkeycreatetestKey结果我得到了以下异常。testKeyhasnotbeencreated.org.apache.hadoop.security.authorize.AuthorizationException:User:rootnotallowedtodo'CREATE_KEY'on'testKey'有什么建议吗? 最佳答案 在RangerKMS中为给定策略添加了HDFS用户并提供了适当的权限。对于前。在这里“创建”k

java - Map Reduce 程序抛出异常 IOException "Type mismatch in key from map"

您好,请在下面找到我的代码,它抛出异常。packageHadoopMapReduce;importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.h

hadoop - Windows 平台上是否有 Hortonwork Data 平台的管理器

大家好,我是Hortonworks数据平台的新手。我在WindowsServer2012R2上安装了HDP2.4。截至目前,我正在命令提示符下运行我的Pig作业,但我想知道Cloudera中是否有像HUE这样的编辑器和像clouderaManager这样的HortonsManager。我在Windows操作系统上工作,所以我认为Hortonworks的Ambari也不支持。请在这方面帮助我。 最佳答案 像clouderamanager一样,对于hortonworks,ambari-service是存在的,但它仅适用于基于ubuntu

论文笔记:CellSense: Human Mobility Recovery via Cellular Network Data Enhancement

1 intro1.1背景1.1.1 蜂窝计费记录(CBR)人类移动性在蜂窝网络上的研究近些年得到了显著关注,这主要是因为手机的高渗透率和收集手机数据的边际成本低蜂窝服务提供商收集蜂窝计费记录(CBR)用于计费目的,例如电话、短信和互联网访问这些记录可以被重新利用来感知用户的位置与仅涉及用户电话和短信通话记录的通话详单记录(CDR)相比,CBR是一个更通用的数据集依靠网络运营商收集的各种CBR数据集,研究人员广泛研究了人类移动性感知集体移动性,如流量和旅行时间个人移动性,如通勤模式和用户空间画像这些都是基于统计方法的,例如隐马尔可夫模型或条件随机场文章地址天数大小HumanMobilityMod

Hadoop MapReduce : Two values as key in Mapper-Reducer

如何使用两个组件构建key?这样做的原因是我有一个无向图。如果A和B通过通信关联(方向无关),则两个节点A和B之间存在边。此通信有一个数字参数。所以我想实现的是有一个将A和B组合在一起作为一个集合的key,这样A到B和B到A的通信就可以被认为是等价的,并且可以被加起来得到统计数据说:AB5BA10键在语义上应该是“A或B在一起”,这样包含A和B作为键的集合的值应该是5+10=15。wordcount示例将特定单词作为关键字。就我而言,我想将包含两个组件的集合作为关键。在map和reduce阶段,只要满足AtoB或BtoA就求和。谢谢! 最佳答案

php - HBase - 如何根据key-timestamp-id查询?

全部-HBase的新手,我终于能够实际获取我曾经存储在MySQL中的数据(大约5000万行)并将其插入到我的HBase表中。我现在正尝试根据键查询此数据,但遇到了一些问题。基本上我有一个构造如下的key:objectname-createdtime-customerid现在我需要根据对象名称和创建时间的范围进行查询,有人知道我该怎么做吗?(我正在使用PHP/Thrift,但我不需要它作为对此的具体答案)我可以查询是否知道确切的行/键,我现在只需要知道如何为中间属性指定一个范围。提前致谢! 最佳答案 使用开始行是键为objectnam

spring - 我如何使用带有注解驱动配置的 Spring Data HBase

我对SpringData和HBase很感兴趣。我将这个jar包含在我的pom中:org.springframework.dataspring-data-hadoop1.0.1.RELEASE我看到somereferences关于使用HbaseTemplate类。这些例子都有基于XML的SpringHBase配置。我正在使用注释基础配置,//defaultHBaseconfiguration//wirehbaseconfiguration(usingdefaultname'hbaseConfiguration')intothetemplate我如何通过注释来做到这一点,例如:@Bean@