hdfs_clusters

hadoop - 使用 hdfs ://URI 时的 NameNode HA

使用HDFS或HFTPURI方案(例如hdfs://namenode/path/to/file)我可以访问HDFS集群而不需要它们的XML配置文件。这在运行shell命令如hdfsdfs-get、hadoopdistcp或从Spark读取文件如sc.hadoopFile()时非常方便，因为我不必将所有相关HDFS集群的xml文件复制和管理到这些代码可能运行的所有节点。这种方法的一个缺点是我必须使用事件NameNode的主机名，否则Hadoop会抛出异常，提示NN处于备用状态。通常的解决方法是尝试一个然后在捕获到任何异常时尝试另一个，或者直接连接到ZooKeeper并使用protobuf

hadoop - 在 HDFS 中的特定文件/ block 上运行 Map-Reduce 作业

首先，我是hadoop的新手:)我有一个大的gzip文件数据集(gzip文件中的TB文档，每个文件的大小约为100-500mb)。基本上，我需要对我的map-reduce作业的输入进行某种过滤。我想以各种方式分析这些文件。其中许多作业只需要分析特定格式的文件(特定长度，包含特定单词等-各种任意(倒置)索引)，并且为每个作业处理整个数据集需要不合理的时间。所以我想创建指向HDFS中特定block/文件的索引。我可以手动生成所需的索引，但我如何准确指定我想处理哪些(数千个)特定文件/block作为映射器的输入？我可以在不将源数据读入例如数据的情况下执行此操作吗？数据库？我想要吗？还是我完全

Map-Reduce hadoop code section 的 indexing hdfs

bash - 最近 24 小时从 HDFS 中的多个目录复制文件到本地

我在从HDFS获取数据到本地时遇到问题。我有例如:/path/to/folder/report1/report1_2019_03_24-03_10*.csv/path/to/folder/report1/report1_2019_03_24-04_12*.csv.../path/to/folder/report1/report1_2019_03_25-05_12*.csv/path/to/folder/report1/report1_2019_03_25-06_12*.csv/path/to/folder/report1/report1_2019_03_25-07_11*.csv/pa

bash HDFS report code report1 hadoop

hadoop - 在没有HDFS的情况下是否可以在伪分布式运行中运行Hadoop？

我正在探索在本地系统上运行hadoop应用程序的选项。与许多应用程序一样，前几个版本应该能够在单个节点上运行，只要我们可以使用所有可用的CPU内核(是的，这与thisquestion相关)。当前的限制是在我们的生产系统上我们有Java1.5，因此我们绑定(bind)到Hadoop0.18.3作为最新版本(参见thisquestion)。所以很遗憾我们不能使用thisnewfeature还没有。第一个选项是简单地以伪分布式模式运行hadoop。本质上:创建一个完整的hadoop集群，其中的所有内容都在恰好1个节点上运行。这种形式的“缺点”是它还使用了成熟的HDFS。这意味着为了处理输入数

中运 hadoop gt lt mapreduce local-storage hdfs

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处？

如果我正确理解Hadoop生态系统，我可以运行我的MapReduce作业，从HDFS或HBase获取数据。假设之前的假设是正确的，我为什么要选择一个而不是另一个？使用HBase作为MR源在性能、可靠性、成本或易用性方面是否有优势？我能找到的最好的引用是这句话，“HBase是当您需要对非常大的数据集进行实时读/写随机访问时使用的Hadoop应用程序。”-TomWhite(2009)Hadoop:权威指南，第1版最佳答案在HDFS上直接使用HadoopMap/Reduce，您的输入和输出通常存储为平面文本文件或HadoopSeque

implementation Hadoop section HBase

api - HDFS 中 hflush 和 hsync api 的区别

有人可以强调技术细节以及何时使用。最佳答案在目前的HDFS(0.23.3)实现中，hflush和hsync是一样的。hsync调用hflush。hflush保证刷新的数据对新读者可见。不能保证数据已刷新到数据节点上的持久存储。因此，如果数据节点发生故障，使用hflush可能会丢失一些数据。hsync旨在保证所有数据写入磁盘设备，但现在未实现。在alphaHDFS2.0.*中，hsync正确实现。您可以在HBase,HDFSanddurablesync中获得更多详细信息. 关于api-

api hflush code section hadoop filesystems hdfs

hadoop - 在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我在一台机器上以伪分布式模式安装了ClouderaCDH4发行版并成功测试它是否正常工作(例如可以运行MapReduce程序，在Hive服务器上插入数据等)但是，如果我有机会core-site.xml文件将fs.default.name设置为机器名而不是localhost并重启NameNode服务，HDFS进入安全-模式。在更改fs.default.name之前，我运行了以下命令来检查HDFS的状态:$hadoopdfsadmin-report...ConfiguredCapacity:18503614464(17.23GB)PresentCapacity:13794557952(12

中设 core-site code hadoop section hdfs cloudera

java - Hadoop 上的 HDFS 位置是什么？

在学习了一些在线教程之后，我尝试在Hadoop中运行WordCount示例。然而，当我们执行以下命令时，我不清楚文件从我们的本地文件系统复制到HDFS的位置。hadoopfs-copyFromLocal/host/tut/python-tutorial.pdf/usr/local/myhadoop-tmp/当我执行以下命令时，我没有在HDFS上看到我的python-tutorial.pdf在这里列出。hadoopfs-ls这让我很困惑。我已经在core-site.xml中指定了“myhadoop-tmp”目录。我认为这个目录将成为HDFS目录，用于存储所有输入文件。core-site.

Hadoop java code HDFS

hadoop - hdfs(namenode)中使用的命名空间和元数据的含义是什么

作为hadoop的初学者，我对命名空间和元数据这两个词感到困惑。这两者之间有什么关系吗？最佳答案根据“Hadoop权威指南”——“NameNode管理文件系统命名空间。它维护文件系统树以及树中所有文件和目录的元数据。”本质上，Namespace就是一个容器。在此上下文中，它表示文件名分组或层次结构。元数据包含文件所有者、权限位、block位置、大小等内容。关于hadoop-hdfs(namenode)中使用的命名空间和元数据的含义是什么，我们在StackOverflow上找到一个类

命名含义 section stackoverflow hadoop namespaces metadata hdfs

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件，我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp，一个成员众多的集群，可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source

何以 amazon-s section hadoop 数来 amazon-s3 hdfs

231 232 233234235 236 237