我正在尝试使用moveFromLocalhdfsshell命令将文件(树结构)从本地文件系统移动到hdfs。如果目标子目录不存在,一切正常。但是,如果它们存在(这是一般情况——因为文件被添加到现有目录),则会创建层次结构中的另一个级别例子:磁盘上的原始结构$findsrcsrcsrc/asrc/a/2src/a/2/file1src/a/1src/a/1/file1src/a/4src/a/4/file1src/a/3src/a/3/file1src/bsrc/b/2src/b/2/file1src/b/1src/b/1/file1src/b/4src/b/4/file1src/b/3
我需要使用Java将hdfs文件复制到hdfs中的另一个位置。不应删除源,只是想在目标hdfs位置复制具有新文件名的源文件。我只能在FileSystem.java类中看到copyFromLocal、copyToLocal或重命名。谁能告诉我是否有任何方法可以将新名称的hdfs文件复制到源目录中? 最佳答案 使用FileUtil类的copy函数:来自javadoc(http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/fs/FileUtil.html):publicsta
我必须处理文件夹中以“_”(下划线)开头的一堆文件。有没有办法强制hadoop查看这些文件夹?我需要编写自己的FileInputFormat吗? 最佳答案 最简单的方法可能是使用例如FileSystem.globStatus自行构建输入文件列表,然后使用FileInputFormat.addInputPath手动将它们添加到作业中。FileSystem.globStatus默认不过滤隐藏文件。 关于java-有没有办法强制hadoop作业查看下划线文件夹?,我们在StackOverflo
我想使用hadoop组件将非结构化数据(图像、视频)加载到HDFS。任何人都可以在这个查询中帮助我。我需要使用哪个hadoop组件来加载非结构化数据。以及使用该组件,如何导入它。 最佳答案 非结构化数据如常规文件?如果数据存储在某个地方的普通文件系统中,那么您不需要任何花哨的组件。您可以使用内置的HDFS工具(hadoopfs等)上传它。您可以编写一些shell脚本来自动执行此操作...如果出于某种原因您的数据在数据库中存储为blob,您可以使用Sqoop。 关于hadoop-如何将图像
我在hadoop的hortonworks沙箱版本上运行rStudioServer。我加载了rhdfs包,但是当我尝试使用hdfs.put()命令将数据集写入hdfs时,我收到以下错误:hdfs.put(mtcars,"/user/root")Errorin.jcall("RJavaTools","Ljava/lang/Object;","invokeMethod",cl,:java.io.IOException:Filec(21,21,22.8,21.4,18.7,18.1,14.3,24.4,22.8,19.2,17.8,16.4,17.3,15.2,10.4,10.4,14.7,3
问题原因1)需要检查core-site.xml和hdfs-site.xml这俩文件,配置没错的话再看第二条2)可能已经执行格式化NameNode后,但是格式之前并没有停止之前的进程并删除相关数据。解决方案(记得你的集群删除前需要停止,每个副本都要进行一次下面操作)1)删除dfs文件夹里的文件和删除nm-local-dir目录 a:删除掉nm-local-dir目录cd/opt/module/hadoop-3.1.3/datarm-rfnm-local-dir b:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件cd/opt/module/
通常我会执行以下操作来使用LZO:使用lzop命令将数据文件压缩到本地磁盘。放入HDFS。使用分布式lzo索引器生成.index文件。我想知道有没有办法同时对HDFS上的原始文件进行压缩和索引? 最佳答案 是的,你可以:在客户端和服务器上的core-site.xml中,将com.hadoop.compression.lzo.LzopCodec添加到以逗号分隔的编解码器列表中:io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoo
我的HDFS文件路径包含我想在Spark中访问的元数据,即类似以下内容的内容:sc.newAPIHadoopFile("hdfs://.../*"),...).map(rdd=>/*accesshdfspathhere*/)在Hadoop中,我可以通过FileSplit.getPath()访问整个拆分的路径。我可以在Spark中做任何类似的事情吗,或者我是否必须将路径字符串附加到扩展NewHadoopRDD中的每个RDD元素,我认为这可能相当昂贵? 最佳答案 在您提供给map()方法的闭包中,没有可用的元数据/执行上下文信息。你可能
我有一个包含大约300GB数据的目录,该目录可能也被复制了3次。我刚刚使用hadoopdfs-rmr删除了文件,我想知道Hadoop删除文件的过程是什么?几秒钟后我收到一条消息说它已被删除,但实际空间需要多长时间才能清理300GB和复制的碎片?我使用的是Hadoop版本0.20.2谢谢 最佳答案 hadoop文件系统处理删除操作的方式与文件传输到HDFS时创建block的方式相同。hadoopdfs-rmrshell命令由名称节点接收,名称节点保存关于文件分配block的元数据。删除操作被通知到相应的数据节点,然后删除block及其
我们可能并不意外地认识到大数据对企业的吸引力,这是我们希望在我们的hadoop集群上监控的磁盘空间问题。我有一个cron作业在运行,它正在做我想做的事情,除了我想要其中一条输出行显示已使用的总体空间。换句话说,在bash中,“du/”命令的最后一行显示了整个磁盘上所有子文件夹的总使用情况。我想要这种行为。目前,当我运行“hadoopdfs-du/”时,我只得到子目录信息,而不是总计。获得它的最佳方式是什么?非常感谢所有SuperStackOverflow人员:)。 最佳答案 我只是没有正确理解文档!这是获得已用总空间的答案;$had