草庐IT

hdfs_clusters

全部标签

hadoop - 使用 hdfs ://URI 时的 NameNode HA

使用HDFS或HFTPURI方案(例如hdfs://namenode/path/to/file)我可以访问HDFS集群而不需要它们的XML配置文件。这在运行shell命令如hdfsdfs-get、hadoopdistcp或从Spark读取文件如sc.hadoopFile()时非常方便,因为我不必将所有相关HDFS集群的xml文件复制和管理到这些代码可能运行的所有节点。这种方法的一个缺点是我必须使用事件NameNode的主机名,否则Hadoop会抛出异常,提示NN处于备用状态。通常的解决方法是尝试一个然后在捕获到任何异常时尝试另一个,或者直接连接到ZooKeeper并使用protobuf

hadoop - 在 HDFS 中的特定文件/ block 上运行 Map-Reduce 作业

首先,我是hadoop的新手:)我有一个大的gzip文件数据集(gzip文件中的TB文档,每个文件的大小约为100-500mb)。基本上,我需要对我的map-reduce作业的输入进行某种过滤。我想以各种方式分析这些文件。其中许多作业只需要分析特定格式的文件(特定长度,包含特定单词等-各种任意(倒置)索引),并且为每个作业处理整个数据集需要不合理的时间。所以我想创建指向HDFS中特定block/文件的索引。我可以手动生成所需的索引,但我如何准确指定我想处理哪些(数千个)特定文件/block作为映射器的输入?我可以在不将源数据读入例如数据的情况下执行此操作吗?数据库?我想要吗?还是我完全

bash - 最近 24 小时从 HDFS 中的多个目录复制文件到本地

我在从HDFS获取数据到本地时遇到问题。我有例如:/path/to/folder/report1/report1_2019_03_24-03_10*.csv/path/to/folder/report1/report1_2019_03_24-04_12*.csv.../path/to/folder/report1/report1_2019_03_25-05_12*.csv/path/to/folder/report1/report1_2019_03_25-06_12*.csv/path/to/folder/report1/report1_2019_03_25-07_11*.csv/pa

hadoop - 在没有HDFS的情况下是否可以在伪分布式运行中运行Hadoop?

我正在探索在本地系统上运行hadoop应用程序的选项。与许多应用程序一样,前几个版本应该能够在单个节点上运行,只要我们可以使用所有可用的CPU内核(是的,这与thisquestion相关)。当前的限制是在我们的生产系统上我们有Java1.5,因此我们绑定(bind)到Hadoop0.18.3作为最新版本(参见thisquestion)。所以很遗憾我们不能使用thisnewfeature还没有。第一个选项是简单地以伪分布式模式运行hadoop。本质上:创建一个完整的hadoop集群,其中的所有内容都在恰好1个节点上运行。这种形式的“缺点”是它还使用了成熟的HDFS。这意味着为了处理输入数

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?

如果我正确理解Hadoop生态系统,我可以运行我的MapReduce作业,从HDFS或HBase获取数据。假设之前的假设是正确的,我为什么要选择一个而不是另一个?使用HBase作为MR源在性能、可靠性、成本或易用性方面是否有优势?我能找到的最好的引用是这句话,“HBase是当您需要对非常大的数据集进行实时读/写随机访问时使用的Hadoop应用程序。”-TomWhite(2009)Hadoop:权威指南,第1版 最佳答案 在HDFS上直接使用HadoopMap/Reduce,您的输入和输出通常存储为平面文本文件或HadoopSeque

api - HDFS 中 hflush 和 hsync api 的区别

有人可以强调技术细节以及何时使用。 最佳答案 在目前的HDFS(0.23.3)实现中,hflush和hsync是一样的。hsync调用hflush。hflush保证刷新的数据对新读者可见。不能保证数据已刷新到数据节点上的持久存储。因此,如果数据节点发生故障,使用hflush可能会丢失一些数据。hsync旨在保证所有数据写入磁盘设备,但现在未实现。在alphaHDFS2.0.*中,hsync正确实现。您可以在HBase,HDFSanddurablesync中获得更多详细信息. 关于api-

hadoop - 在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我在一台机器上以伪分布式模式安装了ClouderaCDH4发行版并成功测试它是否正常工作(例如可以运行MapReduce程序,在Hive服务器上插入数据等)但是,如果我有机会core-site.xml文件将fs.default.name设置为机器名而不是localhost并重启NameNode服务,HDFS进入安全-模式。在更改fs.default.name之前,我运行了以下命令来检查HDFS的状态:$hadoopdfsadmin-report...ConfiguredCapacity:18503614464(17.23GB)PresentCapacity:13794557952(12

java - Hadoop 上的 HDFS 位置是什么?

在学习了一些在线教程之后,我尝试在Hadoop中运行WordCount示例。然而,当我们执行以下命令时,我不清楚文件从我们的本地文件系统复制到HDFS的位置。hadoopfs-copyFromLocal/host/tut/python-tutorial.pdf/usr/local/myhadoop-tmp/当我执行以下命令时,我没有在HDFS上看到我的python-tutorial.pdf在这里列出。hadoopfs-ls这让我很困惑。我已经在core-site.xml中指定了“myhadoop-tmp”目录。我认为这个目录将成为HDFS目录,用于存储所有输入文件。core-site.

hadoop - hdfs(namenode)中使用的命名空间和元数据的含义是什么

作为hadoop的初学者,我对命名空间和元数据这两个词感到困惑。这两者之间有什么关系吗? 最佳答案 根据“Hadoop权威指南”——“NameNode管理文件系统命名空间。它维护文件系统树以及树中所有文件和目录的元数据。”本质上,Namespace就是一个容器。在此上下文中,它表示文件名分组或层次结构。元数据包含文件所有者、权限位、block位置、大小等内容。 关于hadoop-hdfs(namenode)中使用的命名空间和元数据的含义是什么,我们在StackOverflow上找到一个类

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的hadoop作业在HDFS上生成大量文件,我想编写一个单独的线程将这些文件从HDFS复制到S3。谁能告诉我处理它的任何JavaAPI。谢谢 最佳答案 “对S3block文件系统的支持已添加到Hadoop0.11.0中的${HADOOP_HOME}/bin/hadoopdistcp工具中(参见HADOOP-862)。distcp工具设置MapReduce作业来运行副本。使用distcp,一个成员众多的集群,可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source