hdfs_rtp

hadoop - hdfs文件存储查询

当你想在hadoop中存储一个文件时，你需要在系统中运行jobtracker或者tasktracker吗？他们在hdfs中的文件存储中有什么作用吗？当这两个服务宕机时，你能在hdfs中存储一个文件吗？最佳答案在HDFS中存储文件时，jobtracker和tasktracker不会出现，jobtracker和tasktracker是处理恶魔，而Namenode、datanode和secondarynamenode是存储恶魔。因此，当jobtracker和tasktracker关闭时，您可以将文件存储在HDFS中。

bash - 每次启动时手动启动 HDFS？

简而言之:我是否应该在断电操作后每次我回到集群时启动HDFS？我已经成功创建了一个Hadoop集群(在loosingsomebattles之后)，现在我要非常小心地进行此操作。我应该在每次启动集群时执行start-dfs.sh，还是它已准备好执行我的应用程序代码？start-yarn.sh也是如此。我担心如果我在没有一切正常的情况下运行它，它可能会在执行后留下垃圾目录。最佳答案仅仅通过使用Hortonworks和Cloudera沙箱，我可以说打开和关闭它们似乎没有表现出任何“副作用”。但是每次集群启动的时候都需要启动需要的服务。

bash HDFS section code strong hadoop cluster-computing distributed-computing

hadoop - HDFS 错误 + 不完整的 HDFS URI，没有主机 : hdfs://l27. 0.0.1:9000

我用命令在hadoop上运行flumeflume-ngagent-cconf-fconf/flume-twitter.conf-nTwitterAgent现在我无法保存推特数据。它显示错误。我在下面发布了错误。你有什么想法吗？？2016-01-2915:48:56,979(Twitter4JAsyncDispatcher[0])[DEBUG-com.cloudera.flume.source.TwitterSource$1.onStatus(TwitterSource.java:108)]ArtistLR:RTArtsUK1Anunlikelyduo:Homeland'sNinaHos

HDFS hadoop java apache BucketWriter flume webhdfs bigdata

java - 不使用HDFS可以用Hadoop做自动进程平衡吗

我知道可以在hadoop集群上分配作业。我还知道可以从hadoop系统中半直接读取和写入SQL数据库。我的问题更直接，因为在现实世界中，数据是从文件和关系数据库中从hadoop作业中读取和写入的，然后在处理后写回关系数据库。所以直接使用hadoop作为进程平衡器，使用类似hibernate的东西，而不使用HDFS。谢谢最佳答案这是不可能的。因为您无权访问映射器和缩减器的设置和清理任务中的记录。在hdfs之外，执行作业的唯一方法是使用本地文件系统进行输入/输出。关于java-不使用H

Hadoop java section stackoverflow hibernate

Hadoop 2.7.2 - 错误 : Could not find or load main class org. apache.hadoop.hdfs.server.namenode.NameNode

我是新手，我正在尝试找到解决这个问题的方法。为了在Ubuntu15.10上设置Hadoop2.7.2http://idroot.net/tutorials/how-to-install-apache-hadoop-on-ubuntu-14-04/当我启动“hdfsnamenode格式”时，我继续收到此错误错误:无法找到或加载主类org.apache.hadoop.hdfs.server.namenode.NameNode这是bashrc内容exportJAVA_HOME=/usr/lib/jvm/java-8-oracleexportHADOOP_INSTALL=/usr/local/

NameNode HADOOP export HOME ubuntu-15.10 hadoop-2.7.2

java - 在测试中为 hdfs map reduce 可以设置多低的 Yarn 容器内存？

我正在设置一个hadoop单节点环境，用于在只有4GB物理内存的硬件上进行测试，并使用hadoop2.6.0。我只使用了针对此类环境建议的基本配置。但我现在担心我可能应该调整内存资源管理以便能够运行一些mapreduce示例。我知道有几个设置需要查看，包括Java堆以及映射和缩减任务的内存。对于像我这样的小规模测试环境，我应该/可以将最小、最大容器大小设置多低，以使适度的mapreduce任务正常运行？我特别指的是:yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb启动-dfs和启动-yarn

容器 reduce gt lt property java hadoop hdfs hadoop-yarn bigdata

hadoop - 增加 HDP 2.3 3 节点集群中的 HDFS 磁盘大小

在POC的3节点集群安装中，我的第3个笔记是DataNode，它有大约200GB的磁盘空间。根据ambari的HDFS磁盘使用小部件，我当前的HDFS使用情况如下:使用的DFS:512.8MB(1.02%)；非DFS使用8.1GB(16.52%)；剩余40.4GB(82.46%)当我执行df-h检查磁盘大小时，我可以看到tmpfs占用了大量空间，如下面的屏幕截图所示:我如何为我的HDFS使用该空间。我的节点3有200GB硬盘空间最佳答案您可以挂载tmpfs分区，例如:sudomount-ttmpfs-osize=32gtmpfs

hadoop HDFS section tmpfs code hortonworks-data-platform ambari

java - Java 客户端如何向远程 HDFS 服务器上传/下载文件？

我在Fedora虚拟机(VMware工作站)中运行Hadoop-2.7.1HDFS的伪模式。我可以使用hadoophdfsshell命令在Fedora中上传/下载本地文件。但是我如何编写一个简单的java类来从我的Windows主机上传/下载文件？我找到了一些示例代码，例如:FileSystemfs=FileSystem.get(newConfigure());Pathlocal_file=newPath("testfile.txt");Pathremote_path=newPath("/");fs.copyFromLocal(local_file,remote_path);但是我在M

java hadoop gt lt maven hdfs

scala - 使用 Apache Spark 写入 HDFS 时的输出序列

我正在使用apacheSpark开发一个项目，要求将经过处理的spark输出写入特定格式，例如Header->Data->Trailer。为了写入HDFS，我使用.saveAsHadoopFile方法并使用key作为文件名将数据写入多个文件。但问题是数据的顺序未维护，文件写入Data->Header->Trailer或三者的不同组合。RDD转换有什么我遗漏的吗？最佳答案好的，在阅读了来自Google的StackOverflow问题、博客和邮件存档之后。我发现了.union()和其他转换的工作原理以及分区的管理方式。当我们使用.u

Apache scala code String RDD hadoop apache-spark

hadoop - HDFS NFS 网关 mount.nfs : Input/output error?

HDFSNFSGateWaymount.nfs:输入/输出错误？1.报错如下:[root@xxsbin]#mount-tnfs-overs=3,proto=tcp,nolock,noacl,synclocalhost://hdfs_ymount.nfs:Input/outputerror2016-03-1015:12:06,350WARNorg.apache.hadoop.hdfs.nfs.nfs3.RpcProgramNfs3:Exception804org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.au

hadoop output section code hdfs nfs

105 106 107108109 110 111