hdfs_rtp

hadoop - 从 hdfs 中删除大量文件

我在Cento7.2上的单节点hadoop集群HDFS中有400万个文件。由于我的应用程序损坏，HDFS中存储了数十万个重复文件。我想从hdfs中删除这些文件。我尝试使用shell脚本执行此操作，但它花费了很多时间(2天内100k个文件)。脚本包含单个命令(hdfsdfs-rm--skipTrash) 最佳答案这样试试hdfsdfs-find|xargs-P10-n1000hdfsdfs-rm-skipTrash 关于hadoop-从hdfs中删除大量文件，我们在StackOverfl

hadoop - HDFS、Hadoop 中的低延迟数据访问

我正在阅读有关大数据和Hadoop的教程，我在HDFS上找到了这两点StreamingDataAccess:Thetimetoreadwholedatasetismoreimportantthanlatencyinreadingthefirst.HDFSisbuiltonwrite-onceandread-many-timespattern.&LowLatencydataaccess:ApplicationsthatrequireverylesstimetoaccessthefirstdatashouldnotuseHDFSasitisgivingimportancetowholeda

hadoop strong section blockquote dataset hdfs

java - HDFS API 在尝试从中获取数据时抛出错误

我是hadoop的新手，正在尝试在java中使用HDFSAPI从hdfs获取数据。运行程序时出现此错误。这是堆栈跟踪。Exceptioninthread"AWT-EventQueue-0"java.lang.NoSuchMethodError:org.apache.hadoop.tracing.SpanReceiverHost.get(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/String;)Lorg/apache/hadoop/tracing/SpanReceiverHost;atorg.apache.hadoop.hdfs.D

从中 java EventDispatchThread hadoop hdfs

java - HDFS 复制属性未反射(reflect)在 hfs-site.xml 中定义

我在HDFS上工作，并在hfs-site.xml中将复制因子设置为1，如下所示:dfs.replication1dfs.namenode.name.dir/Users/***/Documnent/hDir/hdfs/namenodedfs.datanode.data.dir/Users/***/Documnent/hDir/hdfs/datanodedfs.permissionsfalse但是当我尝试将文件从本地系统复制到hdfs文件系统时，我发现该文件的复制因子是3。这是在hdfs上复制文件的代码:publicclassFileCopyWithWrite{publicstaticvo

hfs-site reflect gt lt property java hadoop hdfs replication

hadoop - 是否有任何可行且简单的选项将本地文件夹用作 Hadoop HDFS 文件夹

我在速度极快的SAN磁盘中有大量文件，我喜欢对它们进行Hive查询。一个明显的选择是使用如下命令将所有文件复制到HDFS中:hadoopdfs-copyFromLocal/path/to/file/on/filesystem/path/to/input/on/hdfs但是，我不想创建我的文件的第二个副本，只是为了在其中进行Hive查询。有什么方法可以将HDFS文件夹指向本地文件夹，以便Hadoop将其视为实际的HDFS文件夹？文件不断添加到SAN磁盘，因此Hadoop需要在添加新文件时查看它们。这类似于Azure的HDInsight方法，您将文件复制到blob存储中，HDInsight

用作可行 sbin section code hadoop hive hdfs hiveql

hadoop - FlumeData 文件未在 HDFS 接收器中创建

我正在尝试使用Kafka作为源并使用flume作为接收器来摄取实时数据。接收器类型是HDFS。我的生产者工作正常，我可以看到正在生成的数据并且我的代理运行良好(运行命令时没有错误)但是文件没有在指定目录中生成。启动flumeagent的命令:/usr/hdp/2.5.0.0-1245/flume/bin/flume-ngagent-c/usr/hdp/2.5.0.0-1245/flume/conf-f/usr/hdp/2.5.0.0-1245/flume/conf/flume-hdfs.conf-ntier1还有我的flume-hdfs.conf文件:tier1.sources=s

中创 FlumeData tier1 tier channel hadoop apache-kafka flume

amazon-web-services - 在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

出于各种原因，我正在使用AMI2.4.11/Hadoop1.0.3在EMR上运行一些作业。我正在尝试通过添加额外的EMR步骤来在我的作业之后运行HDFS清理。使用博托:step=JarStep('HDFScleanup','command-runner.jar',action_on_failure='CONTINUE',step_args=['hadoop','dfs','-rmr','-skipTrash','hdfs:/tmp'])emr_conn.add_jobflow_steps(cluster_id,[step])然而，它经常失败，EMR控制台中的stderr中没有任何内容。

amazon-web-services services 39 section code hadoop hdfs elastic-map-reduce

hadoop - 无法构建 fuse-dfs 来挂载 HDFS

我的Hadoop版本是2.5.2。我想用fuse挂载Hadoop。我尝试了两种方法，但都失败了。一种方法是:HADOOP_HOME:antcompile-c++-libhdfs-Dlibhdfs=1`.但由于找不到build.xml而失败。另一种方法在hadoop-hdfs/target/native/main/native/fuse-dfs，我执行了make还是没有fuse-dfs。我应该如何构建fuse-dfs才能通过fuse挂载HDFS？最佳答案我假设您已经安装了Java和Maven，并且可以构建其他Hadoop组件。之后

fuse-dfs hadoop code fuse hdfs

shell - 将早于 X 天的文件移动到 HDFS 中的目标目录

我有一个源文件夹，它由嵌套的子目录组成。我想移动所有超过2天的.txt文件，存在于源和嵌套子目录到Hadoop中的目标目录。这样的事情可能会将文件从源移动到目标。hadoopfs-mv/user/source/*.txt/user/target如何移动超过2天的.txt文件？最佳答案你可以使用findcommands漂亮的参数，它允许我们使用一些命令，它是-execfind/user/source/*.txt-typef-mtime2-execmv'{}'/user/target\;但有时这会给文件带来一些问题，所以在这种情况下

shell HDFS section 子目 code hadoop

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗？

我们的组织有一个非常普通的活跃网站，每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看，每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中？如果hdfs上堆满了各种小文件，会有什么影响？最佳答案在将文件滚动到新文件之前，您可以尝试添加到文件中的事件数量。如documentation中所述，这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu

流式水槽 section hdfs hadoop hive flume

141 142 143144145 146 147