草庐IT

hadoop - Ambari 抛出错误 E090 HDFS 030 Error in creation reaction

我已经在Ambari管理中设置了一个文件浏览View(View-添加View-文件),但是当我试图访问这个View时,出现以下错误:E090HDFS030Errorincreation/user//hive/jobs/hive-job-...[HdfsApiException]为什么? 最佳答案 Solved!我的问题的解决方案是不允许运行“ambari-server”的用户代表登录到ambari的当前用户执行操作。在Hadoop术语中,不允许ambari守护进程用户冒充ambari用户。要解决此问题,必须修改HDFS配置,以便为我

hadoop - 计算大于 100MB 的 hdfs 压缩文件

有人可以帮我构建命令来计算HDFS中根目录中大于100MB的.snappy压缩文件的数量吗?我使用此命令从根目录中获取.snappy文件的数量:hdfsfsck/-files|grep".snappy"|wc-l现在我需要统计大于100MB的压缩文件。 最佳答案 使用hdfs和awk命令应该可以做到这一点。这是片段hdfsdfs-ls-R/path_to_dir/|awk'{if($5>104857600&&$8~/\.snappy/)print$8}' 关于hadoop-计算大于100

hadoop - Datanodes 处于事件状态,但我无法将文件复制到 HDFS [Hadoop 2.6.0 - Raspberry Pi Cluster]

我一直在使用RaspberryPis开发Hadoop集群,只是出于学习目的。我已经成功配置了所有的奴隶和主人(据我所知)。问题:HDFS无法复制本地文件。并根据http://Master:8088我有3个事件节点。(我在最后附上了截图)但是当我尝试将本地文件复制到HDFS时,出现以下异常:16/01/1206:20:43WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/LICENCE.txt._COPYING_couldonlyb

hadoop - 使用 mapreduce 修改 hdfs 上的文件

我可以修改驻留在hdfs上的文件吗?是创建具有修改内容的临时文件并删除原始文件的唯一方法吗?我可以使用map-reduce修改文件吗?是否可以并行修改不同的文件block并以某种方式合并到一个文件中? 最佳答案 一旦文件在HDFS中,您就不能修改它,除非附加到它。看到这个确认追加是可能的答案:AppenddatatoexistingfileinHDFSJavaMapreduce允许您并行操作文件,每个映射器读取文件的一个block,同时运行多个映射器。这就是它设计的工作方式。任何给定的映射器都可以过滤行并很容易地将全部、部分或全部写

hadoop - hdfs文件存储查询

当你想在hadoop中存储一个文件时,你需要在系统中运行jobtracker或者tasktracker吗?他们在hdfs中的文件存储中有什么作用吗?当这两个服务宕机时,你能在hdfs中存储一个文件吗? 最佳答案 在HDFS中存储文件时,jobtracker和tasktracker不会出现,jobtracker和tasktracker是处理恶魔,而Namenode、datanode和secondarynamenode是存储恶魔。因此,当jobtracker和tasktracker关闭时,您可以将文件存储在HDFS中。

bash - 每次启动时手动启动 HDFS?

简而言之:我是否应该在断电操作后每次我回到集群时启动HDFS?我已经成功创建了一个Hadoop集群(在loosingsomebattles之后),现在我要非常小心地进行此操作。我应该在每次启动集群时执行start-dfs.sh,还是它已准备好执行我的应用程序代码?start-yarn.sh也是如此。我担心如果我在没有一切正常的情况下运行它,它可能会在执行后留下垃圾目录。 最佳答案 仅仅通过使用Hortonworks和Cloudera沙箱,我可以说打开和关闭它们似乎没有表现出任何“副作用”。但是每次集群启动的时候都需要启动需要的服务。

hadoop - HDFS 错误 + 不完整的 HDFS URI,没有主机 : hdfs://l27. 0.0.1:9000

我用命令在hadoop上运行flumeflume-ngagent-cconf-fconf/flume-twitter.conf-nTwitterAgent现在我无法保存推特数据。它显示错误。我在下面发布了错误。你有什么想法吗??2016-01-2915:48:56,979(Twitter4JAsyncDispatcher[0])[DEBUG-com.cloudera.flume.source.TwitterSource$1.onStatus(TwitterSource.java:108)]ArtistLR:RTArtsUK1Anunlikelyduo:Homeland'sNinaHos

java - 不使用HDFS可以用Hadoop做自动进程平衡吗

我知道可以在hadoop集群上分配作业。我还知道可以从hadoop系统中半直接读取和写入SQL数据库。我的问题更直接,因为在现实世界中,数据是从文件和关系数据库中从hadoop作业中读取和写入的,然后在处理后写回关系数据库。所以直接使用hadoop作为进程平衡器,使用类似hibernate的东西,而不使用HDFS。谢谢 最佳答案 这是不可能的。因为您无权访问映射器和缩减器的设置和清理任务中的记录。在hdfs之外,执行作业的唯一方法是使用本地文件系统进行输入/输出。 关于java-不使用H

Hadoop 2.7.2 - 错误 : Could not find or load main class org. apache.hadoop.hdfs.server.namenode.NameNode

我是新手,我正在尝试找到解决这个问题的方法。为了在Ubuntu15.10上设置Hadoop2.7.2http://idroot.net/tutorials/how-to-install-apache-hadoop-on-ubuntu-14-04/当我启动“hdfsnamenode格式”时,我继续收到此错误错误:无法找到或加载主类org.apache.hadoop.hdfs.server.namenode.NameNode这是bashrc内容exportJAVA_HOME=/usr/lib/jvm/java-8-oracleexportHADOOP_INSTALL=/usr/local/

java - 在测试中为 hdfs map reduce 可以设置多低的 Yarn 容器内存?

我正在设置一个hadoop单节点环境,用于在只有4GB物理内存的硬件上进行测试,并使用hadoop2.6.0。我只使用了针对此类环境建议的基本配置。但我现在担心我可能应该调整内存资源管理以便能够运行一些mapreduce示例。我知道有几个设置需要查看,包括Java堆以及映射和缩减任务的内存。对于像我这样的小规模测试环境,我应该/可以将最小、最大容器大小设置多低,以使适度的mapreduce任务正常运行?我特别指的是:yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb启动-dfs和启动-yarn