hdfs

amazon-web-services - 在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

出于各种原因，我正在使用AMI2.4.11/Hadoop1.0.3在EMR上运行一些作业。我正在尝试通过添加额外的EMR步骤来在我的作业之后运行HDFS清理。使用博托:step=JarStep('HDFScleanup','command-runner.jar',action_on_failure='CONTINUE',step_args=['hadoop','dfs','-rmr','-skipTrash','hdfs:/tmp'])emr_conn.add_jobflow_steps(cluster_id,[step])然而，它经常失败，EMR控制台中的stderr中没有任何内容。

amazon-web-services services 39 section code hadoop hdfs elastic-map-reduce

hadoop - 无法构建 fuse-dfs 来挂载 HDFS

我的Hadoop版本是2.5.2。我想用fuse挂载Hadoop。我尝试了两种方法，但都失败了。一种方法是:HADOOP_HOME:antcompile-c++-libhdfs-Dlibhdfs=1`.但由于找不到build.xml而失败。另一种方法在hadoop-hdfs/target/native/main/native/fuse-dfs，我执行了make还是没有fuse-dfs。我应该如何构建fuse-dfs才能通过fuse挂载HDFS？最佳答案我假设您已经安装了Java和Maven，并且可以构建其他Hadoop组件。之后

fuse-dfs hadoop code fuse hdfs

shell - 将早于 X 天的文件移动到 HDFS 中的目标目录

我有一个源文件夹，它由嵌套的子目录组成。我想移动所有超过2天的.txt文件，存在于源和嵌套子目录到Hadoop中的目标目录。这样的事情可能会将文件从源移动到目标。hadoopfs-mv/user/source/*.txt/user/target如何移动超过2天的.txt文件？最佳答案你可以使用findcommands漂亮的参数，它允许我们使用一些命令，它是-execfind/user/source/*.txt-typef-mtime2-execmv'{}'/user/target\;但有时这会给文件带来一些问题，所以在这种情况下

shell HDFS section 子目 code hadoop

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗？

我们的组织有一个非常普通的活跃网站，每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看，每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中？如果hdfs上堆满了各种小文件，会有什么影响？最佳答案在将文件滚动到新文件之前，您可以尝试添加到文件中的事件数量。如documentation中所述，这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu

流式水槽 section hdfs hadoop hive flume

java - 使用指向 HDFS 的 URI 创建文件实例

是否可以通过将我的HDFS的uri作为File类的构造函数来创建文件实例？例如:valconf=newConfiguration()conf.addResource(hdfsCoreSitePath)conf.addResource(hdfsHDFSSitePath)valuri=conf.get("fs.default.name")valfile=newFile(uri+pathtothefile)然后，对于文件实例，我希望使用File类提供的函数访问文件列表，例如file.list()以返回命名文件和目录的字符串数组此抽象路径名表示的目录。我尝试了代码，但它在file.list()

java HDFS code section scala hadoop

shell - 按字母顺序从本地复制文件到HDFS - 排序

我需要通过shell脚本将文件从本地文件系统复制到HDFS。假设我的本地系统中有两个文件fewInfo.tsv.gzfewInfo.txt在上面的例子中，fewInfo.tsv.gz应该先复制(s在x之前)到HDFS，然后再复制fewInfo.txt。这可能吗？有人知道将多个文件复制到HDFS时“put”命令如何工作的内部结构吗？我使用的Hadoop版本是Hadoop2.5.0-cdh5.3.1。最佳答案您可以循环遍历目录以查找所有文件，对文件进行排序，然后执行hdfs复制。优点是您可以指定排序的约束条件(例如，按文件名、日期、

shell HDFS code section filename hadoop copy

ubuntu - 从 Pyspark 访问 HDFS 失败

我已经在Ubuntu17.04上安装了Hadoop2.7.3和pyspark2.2.0。Hadoop和Pyspark似乎都可以独立运行。但是，我没有设法从Pyspark中的HDFS获取文件。当我尝试从HDFS获取文件时，出现以下错误:https://imgur.com/j6Dy2u7我在另一篇文章中看到，需要设置环境变量HADOOP_CONF_DIR才能访问HDFS。我也这样做了(见下一个屏幕截图)，但随后出现另一个错误，Pyspark不再工作。https://imgur.com/AMpJ6TB如果我删除环境变量，一切都像以前一样。如何解决在Pyspark中从HDFS打开文件的问题？我

Pyspark ubuntu section https hadoop apache-spark hdfs

hadoop - HDFS 重复出现错误 : Under-Replicated Blocks

我们的Hadoop集群每天都报告有“复制不足的block”。它通过ClouderaManager进行管理。健康警告的一个例子是:!Under-ReplicatedBlocksConcerning:767underreplicatedblocksinthecluster.3,115totalblocksinthecluster.Percentageunderreplicatedblocks:24.62%.Warningthreshold:10.00%.我一直在运行修复问题的命令，但第二天早上警告又回来了，有时没有添加任何新数据。暂时成功的命令之一是hdfsdfs-setrep-R2/*我

Under-Replicated Replicated code section hadoop hdfs cloudera cloudera-manager

hadoop - 我们如何从 HDFS 中删除特定行？

我们有大量包含客户信息的文本文件。我们必须从这个HDFS文件中删除特定的行；例如，与客户X、Y和Z关联的行并保留其他行。最佳答案首先在该hdfs位置的顶部创建一个配置单元表，然后使用过滤器逻辑从第一个配置单元表创建另一个配置单元表。现在删除第一个配置单元表。确保表应该是内部的。关于hadoop-我们如何从HDFS中删除特定行？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/

hadoop HDFS section 配置单 stackoverflow

hadoop - Kafka Connect HDFS 接收器与 Azure Blob 存储

我想使用KafkaHDFS接收器连接器连接到AzureBlob存储。到目前为止我已经做了:设置kafka-connect属性:hdfs.url=wasbs://hadoop.conf.dir={hadoop_3_home}/etc/hadoop/hadoop.home={hadoop_3_home}并且在core-site.xml中添加了对wasbs的支持:fs.wasbs.implorg.apache.hadoop.fs.azure.NativeAzureFileSystem导出HADOOP_CLASSPATH变量，添加到PATH但是无论如何，Hadoop找不到类-NativeAzu

Connect hadoop code section apache-kafka azure-blob-storage apache-kafka-connect

187 188 189190191 192 193