dfs_task_stack

hadoop - 找不到带有 key dfs.encryption.key.provider.uri 的 uri 以在 CDH 5.4 的 HDFS 加密中创建 key 提供程序

CDH版本:CDH5.4.5问题:当使用HadoopCDH5.4中可用的KMS启用HDFS加密时，将文件放入加密区域时出错。步骤:Hadoop的加密步骤如下:创建key[成功][tester@master~]$hadoopkeycreate'TDEHDP'-providerkms://https@10.1.118.1/key_generator/kms-size128tdegrouphasbeensuccessfullycreatedwithoptionsOptions{cipher='AES/CTR/NoPadding',bitLength=128,description='null

中创 key section tester hadoop encryption copy hdfs cloudera-cdh

permissions - 运行作业时 Hadoop DFS 权限问题

我收到以下权限错误，我不确定为什么hadoop会尝试写入此特定文件夹:hadoopjar/usr/lib/hadoop/hadoop-*-examples.jarpi2100000NumberofMaps=2SamplesperMap=100000WroteinputforMap#0WroteinputforMap#1StartingJoborg.apache.hadoop.security.AccessControlException:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=myu

permissions Hadoop section strong

scala - 如何在 Spark 中获取 map task 的 ID？

有没有办法在Spark中获取maptask的ID？例如，如果每个map任务调用一个用户定义函数，我能否从该用户定义函数中获取该map任务的ID？最佳答案我不确定您所说的maptaskID是什么意思，但您可以使用TaskContext访问任务信息:importorg.apache.spark.TaskContextsc.parallelize(Seq[Int](),4).mapPartitions(_=>{valctx=TaskContext.getvalstageId=ctx.stageIdvalpartId=ctx.parti

何在 scala section TaskContext code hadoop apache-spark hadoop-yarn

hadoop - 配置不正确 : namenode address dfs. namenode.rpc-address没有配置

当我尝试启动DataNode时出现此错误。据我所知，RPC参数仅用于HA配置，我没有设置(我认为)。2014-05-1818:05:00,589INFO[main]impl.MetricsSystemImpl(MetricsSystemImpl.java:shutdown(572))-DataNodemetricssystemshutdowncomplete.2014-05-1818:05:00,589INFO[main]datanode.DataNode(DataNode.java:shutdown(1313))-Shutdowncomplete.2014-05-1818:05:00

namenode address DataNode gt lt hadoop hdfs cloudera-cdh

hadoop - dfs.namenode.servicerpc-address 或 dfs.namenode.rpc-address 未配置

我试图用一个名称节点和四个数据节点配置hadoop。我能够在一台机器上成功配置名称节点和作业跟踪器并将其启动。但是在我要配置数据节点的机器上，我做了以下操作:我将hadoop-2.0.0-cdh4.1.2.tar.gz和mr1-2.0.0-mr1-cdh4.1.2.tar.gz解压到一个文件夹并设置主从配置。在master文件中，我设置了配置为名称节点的机器的IP地址。在从属机器中，我设置了我解压缩tar球的机器的IP地址。当我尝试使用命令启动数据节点时hdfsdatanode我收到这个错误:java.io.IOException:Incorrectconfiguration:name

namenode address code section hadoop hdfs

Hadoop Datanode、namenode、secondary-namenode、job-tracker 和 task-tracker

我是hadoop的新手，所以我有一些疑问。如果主节点发生故障，hadoop集群会发生什么？我们能否在没有任何损失的情况下恢复该节点？是否可以保留一个辅助主节点在当前主节点发生故障时自动切换为主节点？我们有namenode(Secondarynamenode)的备份，所以我们可以在Secondarynamenode发生故障时从中恢复namenode。这样，当datanode发生故障时，我们如何恢复datanode中的数据呢？Secondarynamenode只是namenode的备份而不是datenode，对吧？如果一个节点在作业完成之前发生故障，那么作业跟踪器中有待处理的作业，该作业是

namenode tracker blockquote strong hadoop

Hadoop 2.2.0 运行 start-dfs.sh 失败，错误为 : JAVA_HOME is not set and could not be found

我正在Ubuntu12.x中安装Hadoop。我已经有一个deploy用户，我计划用它在机器集群中运行hadoop。下面的代码演示了我的问题，基本上我可以ssholympus没有问题，但是start-dfs.sh却失败了:deploy@olympus:~$ssholympusWelcometoUbuntu12.04.4LTS(GNU/Linux3.5.0-45-genericx86_64)*Documentation:https://help.ubuntu.com/Lastlogin:MonFeb318:22:272014fromolympusdeploy@olympus:~$echo

start-dfs JAVA_HOME section olympus code hadoop ssh

hadoop - Non DFS Used 到底是什么意思？

这是最近在WebUI上看到的ConfiguredCapacity:232.5GBDFSUsed:112.44GBNonDFSUsed:119.46GBDFSRemaining:613.88MBDFSUsed%:48.36%DFSRemaining%:0.26%我很困惑，非dfsUsed占用了一半以上的容量，我认为这意味着一半的hadoop存储被浪费了在浪费了无意义的时间搜索之后，我只是格式化了namenode，然后从头开始。然后我从本地复制了一个巨大的文本文件(大约19GB)到HDFS(成功)。现在UI显示ConfiguredCapacity:232.5GBDFSUsed:38.52G

到底 hadoop DFS Used strong hdfs

hadoop - hdfs dfs - 覆盖？

我正在使用hdfsdfs-putmyfilemypath对于我得到的一些文件put:'myfile':FileExists这是否意味着存在同名文件或已经存在完全相同的文件(大小、内容)？如何在此处指定-overwrite选项？谢谢! 最佳答案 put:'myfile':文件存在意思是，名为“myfile”的文件已经存在于hdfs中。hdfs中不能有多个同名文件您可以使用hadoopfs-put-f/path_to_local/path_to_hdfs覆盖它关于hadoop-hdfsdf

hadoop hdfs section code myfile

hadoop - 如何修复 "Task attempt_201104251139_0295_r_000006_0 failed to report status for 600 seconds."

我编写了一个mapreduce作业来从数据集中提取一些信息。该数据集是用户对电影的评价。用户数约250K，电影数约300k。map的输出是*>and*>.在reducer中，我将处理这些对。但是当我运行作业时，mapper按预期完成，但reducer总是提示Taskattempt_*failedtoreportstatusfor600seconds.我知道这是由于无法更新状态，所以我添加了对context.progress()的调用在我的代码中是这样的:intcount=0;while(values.hasNext()){if(count++%100==0){context.progr

201104251139 amp code section hadoop mapreduce

140 141 142143144 145 146