草庐IT

hadoop - 增加 HDP 2.3 3 节点集群中的 HDFS 磁盘大小

在POC的3节点集群安装中,我的第3个笔记是DataNode,它有大约200GB的磁盘空间。根据ambari的HDFS磁盘使用小部件,我当前的HDFS使用情况如下:使用的DFS:512.8MB(1.02%);非DFS使用8.1GB(16.52%);剩余40.4GB(82.46%)当我执行df-h检查磁盘大小时,我可以看到tmpfs占用了大量空间,如下面的屏幕截图所示:我如何为我的HDFS使用该空间。我的节点3有200GB硬盘空间 最佳答案 您可以挂载tmpfs分区,例如:sudomount-ttmpfs-osize=32gtmpfs

java - Java 客户端如何向远程 HDFS 服务器上传/下载文件?

我在Fedora虚拟机(VMware工作站)中运行Hadoop-2.7.1HDFS的伪模式。我可以使用hadoophdfsshell命令在Fedora中上传/下载本地文件。但是我如何编写一个简单的java类来从我的Windows主机上传/下载文件?我找到了一些示例代码,例如:FileSystemfs=FileSystem.get(newConfigure());Pathlocal_file=newPath("testfile.txt");Pathremote_path=newPath("/");fs.copyFromLocal(local_file,remote_path);但是我在M

scala - 使用 Apache Spark 写入 HDFS 时的输出序列

我正在使用apacheSpark开发一个项目,要求将经过处理的spark输出写入特定格式,例如Header->Data->Trailer。为了写入HDFS,我使用.saveAsHadoopFile方法并使用key作为文件名将数据写入多个文件。但问题是数据的顺序未维护,文件写入Data->Header->Trailer或三者的不同组合。RDD转换有什么我遗漏的吗? 最佳答案 好的,在阅读了来自Google的StackOverflow问题、博客和邮件存档之后。我发现了.union()和其他转换的工作原理以及分区的管理方式。当我们使用.u

hadoop - HDFS NFS 网关 mount.nfs : Input/output error?

HDFSNFSGateWaymount.nfs:输入/输出错误?1.报错如下:[root@xxsbin]#mount-tnfs-overs=3,proto=tcp,nolock,noacl,synclocalhost://hdfs_ymount.nfs:Input/outputerror2016-03-1015:12:06,350WARNorg.apache.hadoop.hdfs.nfs.nfs3.RpcProgramNfs3:Exception804org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.au

hadoop - 了解 htfp url 和 hdfs 路径之间的区别

这种差异是在周末出现的,当时我试图通过hftp跨不同集群(在物理上分开的房间)传输大量数据hadoopdistcphftp-path-srchftp-path-dsthftpurl类似于hftp://node:50070/more/path它在某些文件上中途失败。日志说Unhandledinternalerror.Vertexfailed,vertexName=scope-152...我手动检查了这些文件,没有发现任何可疑之处。我还尝试了以下愚蠢的Pig脚本,看看它是否能让我感到惊讶data=LOAD'$src_hftp'USINGPigStorage('\t','-schema');

hadoop - Flume-ng:从本地复制日志文件到HDFS的源路径和类型

我正在尝试使用flume-ng将一些日志文件从local复制到HDFS。source是/home/cloudera/flume/weblogs/而sink是hdfs://localhost:8020/flume/转储/。一个cron作业会将日志从tomcat服务器复制到/home/cloudera/flume/weblogs/我想在文件可用时将日志文件复制到HDFS在/home/cloudera/flume/weblogs/中使用flume-ng。下面是我创建的conf文件:agent1.sources=localagent1.channels=MemChannelagent1.sin

hadoop:如何显示put命令的执行时间?或者如何显示在 hdfs 中加载文件的持续时间?

如何在hadoop中配置put命令以显示执行时间?因为这个命令:hadoopfs-puttable.txt/tables/table只是返回这个:16/04/0401:44:47WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable命令有效,但不显示任何执行时间。你知道命令是否可以显示执行时间吗?还是有另一种获取该信息的方法? 最佳答案 根据我的理解,hado

hadoop - 使用集成 spark build 时创建 hdfs

我正在使用Windows并尝试设置Spark。之前,除了Spark之外,我还安装了Hadoop,编辑了配置文件,运行了hadoopnamenode-format,然后我们就开始了。我现在正尝试通过使用预先用hadoop构建的Spark捆绑版本-spark-1.6.1-bin-hadoop2.6.tgz来实现相同的目的到目前为止,这是一个更干净、更简单的过程,但是我无法再访问创建hdfs的命令,hdfs的配置文件不再存在,而且我在任何bin中都没有“hadoop”文件夹。spark安装中没有Hadoop文件夹,我为winutils.exe创建了一个文件夹。感觉好像错过了什么。预建版本的s

hadoop - 如何每天将增量记录从 Oracle 加载到 HDFS,我们可以使用 Sqoop 或 MR Jobs。哪个是首选方法

如何每天从Oracle加载增量记录到HDFS?我们可以使用Sqoop或MRJobs吗? 最佳答案 Sqoop正是为此目的而设计的,并且会导致MR作业完成复制数据的工作。有多种方法可以确定Oracle表中的新内容,例如使用表的ID,或者可能使用日期修改字段(如果有的话)。与Hadoop中的大多数东西相比,Sqoop相当简单。这是文档的链接——搜索“增量”或从第7.2.9节开始了解更多信息。http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html仅供引用一旦您使其正常工作,请查看设计用

hadoop - 将 MQ 数据导入 HDFS

我想使用Flume将websphereMQ消息导入我的hadoopVM。我以前没有使用过MQ,在我的Windows机器上安装了MQ版本8.0.0.4并创建了JNDI绑定(bind)。我已经将该JNDI绑定(bind)文件复制到/etc/flume/conf位置并为flume创建了conf文件。启动Flume代理后,出现以下错误:-Causedby:com.ibm.msg.client.jms.DetailedJMSSecurityException:JMSWMQ2013:ThesecurityauthenticationwasnotvalidthatwassuppliedforQueu