Hdfs

hadoop - 如何通过 Cloudera Manager 启用 webhdfs？

Cloudera将webhdfs滚动到最新的cd3u4，但我无法找到可以启用此功能的位置。我意识到有一个条目dfs.webhdfs.enabled您可以在hdfs-site.xml中手动编辑。在cdh3发行版中，是否有一个安全的地方可以放置dfs.webhdfs.enabled配置？有人可以帮我指出正确的方向吗？最佳答案如果你想使用WebHDFS，你必须先启用它。如何？在conf/hdfs-site.xml中设置以下属性:dfs.webhdfs.enabledtrue注意:如果要在安全集群中使用WebHDFS，则必须设置其他属性

hadoop - Hbase 0.92.1 二级索引示例

我正在hbase0.92.1中处理数百万行和数列。现在，我想知道如何使用协处理器创建二级索引。为此给出一些示例程序。请提供支持hbase0.92.1的程序。最佳答案使用HBase进行二级索引没有单一的好方法。您处理问题的方式将取决于您的数据和用例。二级索引的一些很好的讨论位于here 关于hadoop-Hbase0.92.1二级索引示例，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questi

hadoop Hbase section stackoverflow hdfs

Hadoop 复制模型 - DataStreamer/Namenode

首先，感谢您阅读我的问题!我目前正在研究Hadoop的复制模型，但我已无路可走。我从“OreillyHadoop权威指南第3版2012年1月”一书中学习。要提出这个问题，我首先需要阅读本书下面的文字。在第73页，有以下内容:“DistributedFileSystem返回一个FSDataOutputStream供客户端Hadoop分布式文件系统开始向其中写入数据。就像读取的情况一样，FSDataOutputStream>包装一个DFSOutputStream，它处理与数据节点和名称节点的通信。当客户端写入数据(第3步)时，DFSOutputStream将其拆分为数据包，并将其写入称为数

DataStreamer Namenode strong section hadoop hdfs

python - Hadoop:在 Ubuntu 12.04 中通过 NameNode 格式化 HDFS 文件系统

我正在学习本教程http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/注意:是的，我知道我确实将hadoop安装到/usr/local/hadoop/hadoop/但教程没有当我运行时:hduser@ubuntu:~$/usr/local/hadoop/hadoop/bin/hadoopnamenode-format我明白了Warning:$HADOOP_HOMEisdeprecated./usr/local/hadoop/hadoop/bin/hadoop:li

中通 NameNode hadoop code java python database linux ubuntu

events - 从 HDFS 接收文件系统事件和通知

HDFS是否提供轮询文件系统事件(如文件创建/修改/删除)的方法？此外，它是否提供/支持任何回调机制以在此类事件发生时得到通知？我没有看到这种东西的直接和详细的用例，但是有一个特定的要求来检查这个功能。我没有遇到任何提到这一点的文件。如果有任何HDFS提交者对此发表评论，那就太好了。最佳答案目前没有允许这样做的内置HDFS功能。解决方法是对监视目录执行客户端轮询，或手动跟踪所有记录事件的事务日志。关于events-从HDFS接收文件系统事件和通知，我们在StackOverflow上

events HDFS section 生时 hadoop notifications filesystems

hadoop - 修改HDFS的 block 放置策略

我想修改HDFS的默认block放置策略以适合我的应用程序。例如，我有两个文件file1(128MB)和file2(128MB)。block大小为64MB，每个文件将被分成两个block。我想确保file1和file2的block1都放在同一个数据节点上。如果可能的话，我还想确保副本也放在同一组数据节点上。问题1。这可能吗？如果可以，需要修改源码中的哪些类？问题2。copyFromLocal等命令如何映射到hadoop源代码中的函数？最佳答案 block放置策略的默认行为可以通过扩展BlockPlacementPolicy来修改。

hadoop block section hdfs

hadoop - 请澄清我对Hadoop/HBase的理解

我已经阅读白皮书和观看youtube视频半天了，相信我对这项技术有正确的理解，但在我开始我的项目之前，我想确保它是正确的。因此，这就是我认为我所知道的。在我了解hadoop和hbase的架构时，它们几乎是这样建模的-----------------------------------------|Mapreduce|-----------------------------------------|Hadoop|||-----------------------------------------|HDFS|---------------------------------------

澄清 hadoop HBase HDFS

使用hadoop连接同一目录中的两个文件

我完全是hadoopn00b。作为我的第一个hadoop项目，我正在尝试解决以下问题。我在亚马逊S3存储桶中有一百万多个子文件夹。这些文件夹中的每一个都有两个文件。文件1有如下数据:date,purchaseItem,purchaseAmount01/01/2012,Car,1200001/02/2012,Coffee,4....................File2包含以下格式的客户信息:ClientId:Id1ClientName:"SomeName"ClientAge:"SomeAge"在存储桶中的所有文件夹中重复相同的模式。在将所有这些数据写入HDFS之前，我想按如下方式加

hadoop 使用 code cascading section join mapreduce hdfs file-processing

java - Hadoop 从 HDFS 写入/读取 int[]

我想了解如何在HDFS中的文件中写入和读取int数组。因为int[]数组不是Writable对象，所以我实际上使用的是类org.apache.hadoop.io.ObjectWritable因此写入任务归结为以下调用:newObjectWritable(int[].class,array).write(arg0);相反，读取任务会导致以下情况:int[]array={};newObjectWritable(int[].class,array).readFields(arg0);我不太确定最后一个代码片段。事实上，如果我尝试执行它，我会在第二行得到一个NullPointerExcepti

Hadoop java code section ObjectWritable hdfs

hadoop - 如何在使用 alter drop partition 命令从托管表中删除分区时跳过垃圾箱

在使用以下命令从Hive的托管表中删除分区时，有什么方法可以跳过回收站吗？ALTERTABLEDROPPARITION()类似于我们使用hadoopfs命令删除文件时所做的事情hadoopfs-rmr-skipTrash 最佳答案试试这套。SEThive.warehouse.data.skiptrash=true; 关于hadoop-如何在使用alterdroppartition命令从托管表中删除分区时跳过垃圾箱，我们在StackOverflow上找到一个类似的问题：

垃圾箱何在 section code hadoop hive hdfs

71 72 737475 76 77