草庐IT

do_other_things

全部标签

hadoop - 试图让 Hadoop 在伪分布式模式下工作 : connection refused and other errors

我已经在我的LinuxMint17.1机器上安装了Hadoop2.7.3,并且正在关注Apachetutorial让它运行。我一直在密切关注此页面上的说明,并且已经到了可以通过ssh进入localhost并运行start-dfs.sh和start-yarn的地步.sh。我还格式化了名称节点。我的core-site.xml文件是按照教程编辑的:fs.defaultFShdfs://localhost:9000与hdfs-site.xml一样:dfs.replication1但是,运行命令hadoopfs-mkdir/test会出现以下错误:mkdir:Failedonlocalexcep

hadoop - hive : Replace string/pattern in row if it exists else do nothing

我有一张表A,其中包含ID、姓名、年龄。>idnameage>{20}Joan12>3James12>12Jill12>{54}Adam12>{10}Bill12我需要移除{}周围的“id”字段。我试过这个:translate(regexp_extract(id,'([^{])([^}])',2),'{','')它有效,但对于没有{}的值返回null。id312有没有办法让我得到输出为???id203125410 最佳答案 您可以使用regexp_replaceudf来删除“{}”,例如:selectregexp_replace(i

hadoop - LAN 虚拟机上的 Web 应用程序 : curl -L works from other vms, 浏览器/主机上的 curl 没有

我正在我的LAN上设置Hadoop虚拟机集群,其中一个虚拟机(ResourceManager)上的进程提供了一个表现出奇怪行为的WebUI。所有虚拟机都从我的桌面运行,并已分配ips。我定位的URL是resourcemanager:8088,这是行为。从我桌面上运行的其他虚拟机:curl-vresourcemanager:8088返回HTTP302Found响应,Location:http://resourcemanager:8088/cluster。向上看,我看到这是一个重定向,curl-Lresourcemanager:8088成功检索到HTML。从运行虚拟机的桌面:尝试从(Chr

java - 尽管配置相同,但 Cassandra 集群 : some nodes reporting "no other nodes seen",

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭10年前。我正在尝试设置一个8节点开发集群。我对配置做了最小的改动。我将其中一个节点设置为所有节点上的种子。3个节点连接到种子,但还有4个不连接。我检查过所有非连接节点都可以访问种子的IP(它们甚至在同一子网上)。我的网络没问题。我验证了所有IP都是正确的。一个非连接节点显然访问了种子:INFO17:30:16,272StartingMessagingServic

hadoop - yarn : Do we need nodemanager on namenode?

我们是否需要在名称节点节点上启动节点管理器,即我不会将其设为数据节点?我将在一台机器上启动namenode和resourcemanager。由于我不会在这台机器上启动datanode,我想我也不需要启动nodemanager?感谢 最佳答案 这取决于你。您可以选择在未安装Datanode服务的节点上保留Nodemanager,在这种情况下,如果由该Nodemanager执行,数据将通过网络传输以执行任务。但是如果你想减少主节点的负载,那么你应该避免在它上面安装如此繁重的进程(Datanode和NodeManager)。在许多情况下,

java - Apache Hadoop : Can it do "time-varying" input?

即使经过一些谷歌搜索,我也没有找到答案。我的输入文件是由一个进程生成的,当文件达到1GB时,该进程将它们分块。现在,如果我要运行一个处理dfs中的输入目录的mapreduce作业,我如何确保该作业在hadoop作业运行时获取添加到同一输入目录的文件?我觉得这几乎是不可能的,因为当hadoop作业运行时,它会计算剩余时间和所有这些东西,所以当我的输入不断堆积或换句话说是“可变的”时,Hadoop不会知道如何管理它-这是我的猜测。我想知道您对此的看法以及对此的最佳替代方法!感谢您的帮助。 最佳答案 您描述的用例不是Hadoop设计用来处

hadoop - PIG : Cannot turn (key, (tuple_of_3_things)) into (key, tupelement1, tupelement2, tupelement3)

我有一个关系,reflat1。下面是DESCRIBE和DUMP的输出。reflat1:{cookie:chararray,tupofstuff:(category:chararray,weight:double,lasttime:long)}(key1,(613,1.0,1410155702)(key2,(iOS,1.0,1410155702)(key3,(G.M.,1.0,1410155702)是的,我注意到括号没有闭合。我不知道为什么。也许没有括号的原因是我所有问题的根源。我想将其转换为具有4个字段的关系(我们称其为reflat2),理想情况下如下所示:(key1,613,1.0,

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储,我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息,例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py,并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在,我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外,还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起?我是否传递最初很长的键值对(

hadoop - hdfs数据目录 "is in an inconsistent state: is incompatible with others."

对不起,这让我很紧张......就在我开始通过配置单元加载表时,我开始收到此错误。亲爱的老谷歌也帮不上忙。我的情况-单节点设置。名称节点正常工作。datanode启动失败并显示此消息-ERRORdatanode.DataNode:org.apache.hadoop.hdfs.server.common.InconsistentFSStateException:Directory/xxxxxx/hadoop/hdfs-data-dirisinaninconsistentstate:isincompatiblewithothers.我已经尝试过重新格式化我的名称节点,但没有用。此外,我试图

hadoop - HDFS 加密 : User:hdfs not allowed to do 'DECRYPT_EEK' on 'hdfskey'

我正在尝试在HDP2.4上使用RangerKMS设置HDFS加密。我能够部署和配置KMS服务。我已经创建了一个key和一个访问策略,以授予hdfs用户使用此key进行操作的所有权限。我可以创建一个加密区域sudo-uhdfshdfsmkdir/data_encsudo-uhdfshdfscrypto-createZone-keyNamehdfskey-path/data_enc但是,当我尝试将文件放入目录时,出现此错误:sudo-uhdfshdfsdfs-put/tmp/file.txt/data_enc/...User:hdfsnotallowedtodo'DECRYPT_EEK'o