hdfs_clusters_草庐IT

hadoop - 是否有任何可行且简单的选项将本地文件夹用作 Hadoop HDFS 文件夹

我在速度极快的SAN磁盘中有大量文件，我喜欢对它们进行Hive查询。一个明显的选择是使用如下命令将所有文件复制到HDFS中:hadoopdfs-copyFromLocal/path/to/file/on/filesystem/path/to/input/on/hdfs但是，我不想创建我的文件的第二个副本，只是为了在其中进行Hive查询。有什么方法可以将HDFS文件夹指向本地文件夹，以便Hadoop将其视为实际的HDFS文件夹？文件不断添加到SAN磁盘，因此Hadoop需要在添加新文件时查看它们。这类似于Azure的HDInsight方法，您将文件复制到blob存储中，HDInsight

hadoop - FlumeData 文件未在 HDFS 接收器中创建

我正在尝试使用Kafka作为源并使用flume作为接收器来摄取实时数据。接收器类型是HDFS。我的生产者工作正常，我可以看到正在生成的数据并且我的代理运行良好(运行命令时没有错误)但是文件没有在指定目录中生成。启动flumeagent的命令:/usr/hdp/2.5.0.0-1245/flume/bin/flume-ngagent-c/usr/hdp/2.5.0.0-1245/flume/conf-f/usr/hdp/2.5.0.0-1245/flume/conf/flume-hdfs.conf-ntier1还有我的flume-hdfs.conf文件:tier1.sources=s

amazon-web-services - 在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

出于各种原因，我正在使用AMI2.4.11/Hadoop1.0.3在EMR上运行一些作业。我正在尝试通过添加额外的EMR步骤来在我的作业之后运行HDFS清理。使用博托:step=JarStep('HDFScleanup','command-runner.jar',action_on_failure='CONTINUE',step_args=['hadoop','dfs','-rmr','-skipTrash','hdfs:/tmp'])emr_conn.add_jobflow_steps(cluster_id,[step])然而，它经常失败，EMR控制台中的stderr中没有任何内容。

hadoop - 无法构建 fuse-dfs 来挂载 HDFS

我的Hadoop版本是2.5.2。我想用fuse挂载Hadoop。我尝试了两种方法，但都失败了。一种方法是:HADOOP_HOME:antcompile-c++-libhdfs-Dlibhdfs=1`.但由于找不到build.xml而失败。另一种方法在hadoop-hdfs/target/native/main/native/fuse-dfs，我执行了make还是没有fuse-dfs。我应该如何构建fuse-dfs才能通过fuse挂载HDFS？最佳答案我假设您已经安装了Java和Maven，并且可以构建其他Hadoop组件。之后

shell - 将早于 X 天的文件移动到 HDFS 中的目标目录

我有一个源文件夹，它由嵌套的子目录组成。我想移动所有超过2天的.txt文件，存在于源和嵌套子目录到Hadoop中的目标目录。这样的事情可能会将文件从源移动到目标。hadoopfs-mv/user/source/*.txt/user/target如何移动超过2天的.txt文件？最佳答案你可以使用findcommands漂亮的参数，它允许我们使用一些命令，它是-execfind/user/source/*.txt-typef-mtime2-execmv'{}'/user/target\;但有时这会给文件带来一些问题，所以在这种情况下

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗？

我们的组织有一个非常普通的活跃网站，每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看，每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中？如果hdfs上堆满了各种小文件，会有什么影响？最佳答案在将文件滚动到新文件之前，您可以尝试添加到文件中的事件数量。如documentation中所述，这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu

java - 使用指向 HDFS 的 URI 创建文件实例

是否可以通过将我的HDFS的uri作为File类的构造函数来创建文件实例？例如:valconf=newConfiguration()conf.addResource(hdfsCoreSitePath)conf.addResource(hdfsHDFSSitePath)valuri=conf.get("fs.default.name")valfile=newFile(uri+pathtothefile)然后，对于文件实例，我希望使用File类提供的函数访问文件列表，例如file.list()以返回命名文件和目录的字符串数组此抽象路径名表示的目录。我尝试了代码，但它在file.list()

shell - 按字母顺序从本地复制文件到HDFS - 排序

我需要通过shell脚本将文件从本地文件系统复制到HDFS。假设我的本地系统中有两个文件fewInfo.tsv.gzfewInfo.txt在上面的例子中，fewInfo.tsv.gz应该先复制(s在x之前)到HDFS，然后再复制fewInfo.txt。这可能吗？有人知道将多个文件复制到HDFS时“put”命令如何工作的内部结构吗？我使用的Hadoop版本是Hadoop2.5.0-cdh5.3.1。最佳答案您可以循环遍历目录以查找所有文件，对文件进行排序，然后执行hdfs复制。优点是您可以指定排序的约束条件(例如，按文件名、日期、

ubuntu - 从 Pyspark 访问 HDFS 失败

我已经在Ubuntu17.04上安装了Hadoop2.7.3和pyspark2.2.0。Hadoop和Pyspark似乎都可以独立运行。但是，我没有设法从Pyspark中的HDFS获取文件。当我尝试从HDFS获取文件时，出现以下错误:https://imgur.com/j6Dy2u7我在另一篇文章中看到，需要设置环境变量HADOOP_CONF_DIR才能访问HDFS。我也这样做了(见下一个屏幕截图)，但随后出现另一个错误，Pyspark不再工作。https://imgur.com/AMpJ6TB如果我删除环境变量，一切都像以前一样。如何解决在Pyspark中从HDFS打开文件的问题？我

hadoop - HDFS 重复出现错误 : Under-Replicated Blocks

我们的Hadoop集群每天都报告有“复制不足的block”。它通过ClouderaManager进行管理。健康警告的一个例子是:!Under-ReplicatedBlocksConcerning:767underreplicatedblocksinthecluster.3,115totalblocksinthecluster.Percentageunderreplicatedblocks:24.62%.Warningthreshold:10.00%.我一直在运行修复问题的命令，但第二天早上警告又回来了，有时没有添加任何新数据。暂时成功的命令之一是hdfsdfs-setrep-R2/*我