do_other_things

hadoop - 试图让 Hadoop 在伪分布式模式下工作 : connection refused and other errors

我已经在我的LinuxMint17.1机器上安装了Hadoop2.7.3，并且正在关注Apachetutorial让它运行。我一直在密切关注此页面上的说明，并且已经到了可以通过ssh进入localhost并运行start-dfs.sh和start-yarn的地步.sh。我还格式化了名称节点。我的core-site.xml文件是按照教程编辑的:fs.defaultFShdfs://localhost:9000与hdfs-site.xml一样:dfs.replication1但是，运行命令hadoopfs-mkdir/test会出现以下错误:mkdir:Failedonlocalexcep

下工 connection hadoop java apache ssh hdfs

hadoop - hive : Replace string/pattern in row if it exists else do nothing

我有一张表A，其中包含ID、姓名、年龄。>idnameage>{20}Joan12>3James12>12Jill12>{54}Adam12>{10}Bill12我需要移除{}周围的“id”字段。我试过这个:translate(regexp_extract(id,'([^{])([^}])',2),'{','')它有效，但对于没有{}的值返回null。id312有没有办法让我得到输出为???id203125410 最佳答案您可以使用regexp_replaceudf来删除“{}”，例如:selectregexp_replace(i

Replace pattern section code pre hadoop hive apache-spark-sql hiveql

hadoop - LAN 虚拟机上的 Web 应用程序 : curl -L works from other vms, 浏览器/主机上的 curl 没有

我正在我的LAN上设置Hadoop虚拟机集群，其中一个虚拟机(ResourceManager)上的进程提供了一个表现出奇怪行为的WebUI。所有虚拟机都从我的桌面运行，并已分配ips。我定位的URL是resourcemanager:8088，这是行为。从我桌面上运行的其他虚拟机:curl-vresourcemanager:8088返回HTTP302Found响应，Location:http://resourcemanager:8088/cluster。向上看，我看到这是一个重定向，curl-Lresourcemanager:8088成功检索到HTML。从运行虚拟机的桌面:尝试从(Chr

机上 curl code resourcemanager section hadoop networking port hadoop-yarn

java - 尽管配置相同，但 Cassandra 集群 : some nodes reporting "no other nodes seen",

这个问题不太可能帮助任何future的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visitthehelpcenter.关闭10年前。我正在尝试设置一个8节点开发集群。我对配置做了最小的改动。我将其中一个节点设置为所有节点上的种子。3个节点连接到种子，但还有4个不连接。我检查过所有非连接节点都可以访问种子的IP(它们甚至在同一子网上)。我的网络没问题。我验证了所有IP都是正确的。一个非连接节点显然访问了种子:INFO17:30:16,272StartingMessagingServic

nodes Cassandra section blockquote 种子 java hadoop

hadoop - yarn : Do we need nodemanager on namenode?

我们是否需要在名称节点节点上启动节点管理器，即我不会将其设为数据节点？我将在一台机器上启动namenode和resourcemanager。由于我不会在这台机器上启动datanode，我想我也不需要启动nodemanager？感谢最佳答案这取决于你。您可以选择在未安装Datanode服务的节点上保留Nodemanager，在这种情况下，如果由该Nodemanager执行，数据将通过网络传输以执行任务。但是如果你想减少主节点的负载，那么你应该避免在它上面安装如此繁重的进程(Datanode和NodeManager)。在许多情况下，

nodemanager namenode section stackoverflow hadoop hdfs hadoop-yarn cloudera-cdh

java - Apache Hadoop : Can it do "time-varying" input?

即使经过一些谷歌搜索，我也没有找到答案。我的输入文件是由一个进程生成的，当文件达到1GB时，该进程将它们分块。现在，如果我要运行一个处理dfs中的输入目录的mapreduce作业，我如何确保该作业在hadoop作业运行时获取添加到同一输入目录的文件？我觉得这几乎是不可能的，因为当hadoop作业运行时，它会计算剩余时间和所有这些东西，所以当我的输入不断堆积或换句话说是“可变的”时，Hadoop不会知道如何管理它-这是我的猜测。我想知道您对此的看法以及对此的最佳替代方法!感谢您的帮助。最佳答案您描述的用例不是Hadoop设计用来处

time-varying amp section Hadoop 的 java architecture

hadoop - PIG : Cannot turn (key, (tuple_of_3_things)) into (key, tupelement1, tupelement2, tupelement3)

我有一个关系，reflat1。下面是DESCRIBE和DUMP的输出。reflat1:{cookie:chararray,tupofstuff:(category:chararray,weight:double,lasttime:long)}(key1,(613,1.0,1410155702)(key2,(iOS,1.0,1410155702)(key3,(G.M.,1.0,1410155702)是的，我注意到括号没有闭合。我不知道为什么。也许没有括号的原因是我所有问题的根源。我想将其转换为具有4个字段的关系(我们称其为reflat2)，理想情况下如下所示:(key1,613,1.0,

tupelement tupelement1 code reflat section hadoop apache-pig

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储，我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息，例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py，并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在，我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外，还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起？我是否传递最初很长的键值对(

MapReduce database section strong python hadoop hadoop-streaming

hadoop - hdfs数据目录 "is in an inconsistent state: is incompatible with others."

对不起，这让我很紧张......就在我开始通过配置单元加载表时，我开始收到此错误。亲爱的老谷歌也帮不上忙。我的情况-单节点设置。名称节点正常工作。datanode启动失败并显示此消息-ERRORdatanode.DataNode:org.apache.hadoop.hdfs.server.common.InconsistentFSStateException:Directory/xxxxxx/hadoop/hdfs-data-dirisinaninconsistentstate:isincompatiblewithothers.我已经尝试过重新格式化我的名称节点，但没有用。此外，我试图

inconsistent incompatible section hadoop VERSION hdfs

hadoop - HDFS 加密 : User:hdfs not allowed to do 'DECRYPT_EEK' on 'hdfskey'

我正在尝试在HDP2.4上使用RangerKMS设置HDFS加密。我能够部署和配置KMS服务。我已经创建了一个key和一个访问策略，以授予hdfs用户使用此key进行操作的所有权限。我可以创建一个加密区域sudo-uhdfshdfsmkdir/data_encsudo-uhdfshdfscrypto-createZone-keyNamehdfskey-path/data_enc但是，当我尝试将文件放入目录时，出现此错误:sudo-uhdfshdfsdfs-put/tmp/file.txt/data_enc/...User:hdfsnotallowedtodo'DECRYPT_EEK'o

amp 39 code section DECRYPT_EEK hadoop encryption hdfs hortonworks-data-platform apache-ranger

102 103 104105106 107 108