草庐IT

hdfs_rtp

全部标签

hadoop - 从 hdfs 中删除大量文件

我在Cento7.2上的单节点hadoop集群HDFS中有400万个文件。由于我的应用程序损坏,HDFS中存储了数十万个重复文件。我想从hdfs中删除这些文件。我尝试使用shell脚本执行此操作,但它花费了很多时间(2天内100k个文件)。脚本包含单个命令(hdfsdfs-rm--skipTrash) 最佳答案 这样试试hdfsdfs-find|xargs-P10-n1000hdfsdfs-rm-skipTrash 关于hadoop-从hdfs中删除大量文件,我们在StackOverfl

hadoop - HDFS、Hadoop 中的低延迟数据访问

我正在阅读有关大数据和Hadoop的教程,我在HDFS上找到了这两点StreamingDataAccess:Thetimetoreadwholedatasetismoreimportantthanlatencyinreadingthefirst.HDFSisbuiltonwrite-onceandread-many-timespattern.&LowLatencydataaccess:ApplicationsthatrequireverylesstimetoaccessthefirstdatashouldnotuseHDFSasitisgivingimportancetowholeda

java - HDFS API 在尝试从中获取数据时抛出错误

我是hadoop的新手,正在尝试在java中使用HDFSAPI从hdfs获取数据。运行程序时出现此错误。这是堆栈跟踪。Exceptioninthread"AWT-EventQueue-0"java.lang.NoSuchMethodError:org.apache.hadoop.tracing.SpanReceiverHost.get(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/String;)Lorg/apache/hadoop/tracing/SpanReceiverHost;atorg.apache.hadoop.hdfs.D

java - HDFS 复制属性未反射(reflect)在 hfs-site.xml 中定义

我在HDFS上工作,并在hfs-site.xml中将复制因子设置为1,如下所示:dfs.replication1dfs.namenode.name.dir/Users/***/Documnent/hDir/hdfs/namenodedfs.datanode.data.dir/Users/***/Documnent/hDir/hdfs/datanodedfs.permissionsfalse但是当我尝试将文件从本地系统复制到hdfs文件系统时,我发现该文件的复制因子是3。这是在hdfs上复制文件的代码:publicclassFileCopyWithWrite{publicstaticvo

hadoop - 是否有任何可行且简单的选项将本地文件夹用作 Hadoop HDFS 文件夹

我在速度极快的SAN磁盘中有大量文件,我喜欢对它们进行Hive查询。一个明显的选择是使用如下命令将所有文件复制到HDFS中:hadoopdfs-copyFromLocal/path/to/file/on/filesystem/path/to/input/on/hdfs但是,我不想创建我的文件的第二个副本,只是为了在其中进行Hive查询。有什么方法可以将HDFS文件夹指向本地文件夹,以便Hadoop将其视为实际的HDFS文件夹?文件不断添加到SAN磁盘,因此Hadoop需要在添加新文件时查看它们。这类似于Azure的HDInsight方法,您将文件复制到blob存储中,HDInsight

hadoop - FlumeData 文件未在 HDFS 接收器中创建

我正在尝试使用Kafka作为源并使用flume作为接收器来摄取实时数据。接收器类型是HDFS。我的生产者工作正常,我可以看到正在生成的数据并且我的代理运行良好(运行命令时没有错误)但是文件没有在指​​定目录中生成。启动flumeagent的命令:/usr/hdp/2.5.0.0-1245/flume/bin/flume-ngagent-c/usr/hdp/2.5.0.0-1245/flume/conf-f/usr/hdp/2.5.0.0-1245/flume/conf/flume-hdfs.conf-ntier1还有我的flume-hdfs.conf文件:tier1.sources=s

amazon-web-services - 在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

出于各种原因,我正在使用AMI2.4.11/Hadoop1.0.3在EMR上运行一些作业。我正在尝试通过添加额外的EMR步骤来在我的作业之后运行HDFS清理。使用博托:step=JarStep('HDFScleanup','command-runner.jar',action_on_failure='CONTINUE',step_args=['hadoop','dfs','-rmr','-skipTrash','hdfs:/tmp'])emr_conn.add_jobflow_steps(cluster_id,[step])然而,它经常失败,EMR控制台中的stderr中没有任何内容。

hadoop - 无法构建 fuse-dfs 来挂载 HDFS

我的Hadoop版本是2.5.2。我想用fuse挂载Hadoop。我尝试了两种方法,但都失败了。一种方法是:HADOOP_HOME:antcompile-c++-libhdfs-Dlibhdfs=1`.但由于找不到build.xml而失败。另一种方法在hadoop-hdfs/target/native/main/native/fuse-dfs,我执行了make还是没有fuse-dfs。我应该如何构建fuse-dfs才能通过fuse挂载HDFS? 最佳答案 我假设您已经安装了Java和Maven,并且可以构建其他Hadoop组件。之后

shell - 将早于 X 天的文件移动到 HDFS 中的目标目录

我有一个源文件夹,它由嵌套的子目录组成。我想移动所有超过2天的.txt文件,存在于源和嵌套子目录到Hadoop中的目标目录。这样的事情可能会将文件从源移动到目标。hadoopfs-mv/user/source/*.txt/user/target如何移动超过2天的.txt文件? 最佳答案 你可以使用findcommands漂亮的参数,它允许我们使用一些命令,它是-execfind/user/source/*.txt-typef-mtime2-execmv'{}'/user/target\;但有时这会给文件带来一些问题,所以在这种情况下

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗?

我们的组织有一个非常普通的活跃网站,每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看,每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中?如果hdfs上堆满了各种小文件,会有什么影响? 最佳答案 在将文件滚动到新文件之前,您可以尝试添加到文件中的事件数量。如documentation中所述,这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu