hdfs_clusters

hadoop - 检查HDFS中的目录是否为空

HDFS有没有检查目录是否为空的命令最佳答案 count:hdfsdfs-count/path100/path输出列为:DIR_COUNT、FILE_COUNT、CONTENT_SIZE、PATHNAMEdu:hdfsdfs-du-s/path0/path如果有0字节文件或空目录，结果仍然是0。关于hadoop-检查HDFS中的目录是否为空，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/ques

hadoop - HDFS 文件比较

由于没有diff，我如何比较两个HDFS文件？我正在考虑使用Hive表并从HDFS加载数据，然后在2个表上使用连接语句。有没有更好的方法？最佳答案 hadoop没有提供diff命令，但您实际上可以在shell中使用diff命令使用重定向:diff如果您只想知道2个文件是否相同而不关心差异，我会建议另一种基于校验和的方法:您可以获取两个文件的校验和，然后比较它们。我认为Hadoop不需要生成校验和，因为它们已经存储，所以它应该很快，但我可能是错的。我认为没有命令行选项，但您可以使用JavaAPI轻松完成此操作并创建一个小应用程序:F

hadoop HDFS section code chksum hive

hadoop - 为什么不建议将 RAID 用于 Hadoop HDFS 设置？

各种网站(如Hortonworks)建议不要为HDFS设置配置RAID，主要有两个原因:速度受限于较慢的磁盘(JBOD性能更好)。可靠性推荐在NameNode上使用RAID。但是如何在每个DataNode存储磁盘上实现RAID呢？最佳答案 RAID有两个用途。根据RAID配置，您可以获得:更好的性能:读取一个文件可以分布在多个磁盘上，或者不同的磁盘可以透明地用于从同一文件系统读取多个文件。容错:使用多个磁盘上的奇偶校验位复制或存储数据。如果磁盘出现故障，它可以从另一个副本恢复或使用奇偶校验位重新计算。HDFS具有类似的内置软件机制

hadoop section RAID HDFS

hadoop - 为什么 DataFrame.saveAsTable ("df") 将表保存到不同的 HDFS 主机？

我已经用Spark(1.4.0)配置了Hive(1.13.1)，我可以从hive访问所有数据库和表，我的仓库目录是hdfs://192.168.1.17:8020/用户/hive/仓库但是，当我尝试使用df.saveAsTable("df")函数通过Spark-Shell(使用master)将Dataframe保存到Hive中时，我遇到了这个错误。15/07/0314:48:59INFOaudit:ugi=userip=unknown-ip-addrcmd=get_database:default15/07/0314:48:59INFOHiveMetaStore:0:get_table

saveAsTable DataFrame apache spark org hadoop apache-spark hdfs apache-spark-sql

hadoop - hdfs 数据节点与名称节点断开连接

我不时在clouderamanager中收到以下错误:ThisDataNodeisnotconnectedtooneormoreofitsNameNode(s).和TheClouderaManageragentgotanunexpectedresponsefromthisrole'swebserver.(通常在一起，有时只有一个)在SO和Google中对这些错误的大多数引用中，问题是配置问题(数据节点永远不会连接到名称节点)在我的例子中，数据节点通常在启动时连接，但在一段时间后会断开连接-所以这似乎不是一个错误的配置。还有其他选择吗？是否可以强制数据节点重新连接到名称节点？是否可以从数

hadoop hdfs apache java cloudera

hadoop - YARN 如何决定创建多少个容器？ (为什么S3a和HDFS有区别？)

我正在使用当前版本的Hadoop，并运行一些TestDFSIO基准测试(1.8版)来比较默认文件系统是HDFS与默认文件系统是S3存储桶的情况(通过S3a使用)。在默认文件系统为S3a的情况下读取100x1MB文件时，我观察到YARNWebUI中的最大容器数小于默认情况下的HDFS，而S3a约为慢4倍。当使用默认文件系统S3a读取1000x10KB文件时，我观察到YARNWebUI中的最大容器数至少比默认为HDFS，S3a大约慢16倍。(例如，默认情况下HDFS的测试执行时间为50秒，而默认情况下S3a的测试执行时间为16分钟。)启动的maptask的数量在每种情况下都符合预期，这方面

容器 hadoop strong code amazon-s3 hadoop-yarn

hadoop/yarn 和非 hdfs 文件系统上的任务并行化

我已经实例化了一个Hadoop2.4.1集群，我发现运行MapReduce应用程序的并行化取决于输入数据所在的文件系统类型。使用HDFS，MapReduce作业将生成足够多的容器以最大限度地利用所有可用内存。例如，一个172GB内存的3节点集群，每个map任务分配2GB内存，将创建大约86个应用程序容器。在非HDFS的文件系统上(如NFS或在我的用例中，并行文件系统)，MapReduce作业将仅分配可用任务的子集(例如，对于相同的3节点集群，大约25-创建了40个容器)。由于我使用的是并行文件系统，因此我不太关心使用NFS时会发现的瓶颈。是否有YARN(yarn-site.xml)或M

hadoop yarn section 的 block hdfs hpc hadoop2

hadoop - 运行 Hadoop MapReduce，是否可以调用 HDFS 外部的外部可执行文件

在我的映射器中，我想调用安装在HDFS之外的工作节点上的外部软件。这可能吗？执行此操作的最佳方法是什么？我知道这可能会带走MapReduce的一些优势/可扩展性，但我想在HDFS中进行交互，并在我的映射器中调用编译/安装的外部软件代码来处理一些数据。最佳答案 Mappers(和reducers)就像盒子上的任何其他进程一样-只要TaskTracker用户有权运行可执行文件，这样做就没有问题。有几种调用外部进程的方法，但由于我们已经在Java中，ProcessBuilder似乎是一个合乎逻辑的起点。编辑:刚刚发现Hadoop有一

MapReduce hadoop section 射器 hdfs

hadoop - hdfs 日志文件太大

在对hdfs进行了大量的读写操作之后，(我不知道导致这个问题的确切操作)。这两个文件:dncp_block_verification.log.curr,dncp_block_verification.log.prev每个都超过200000000000字节。对hdfs进行哪些操作可能会导致这些文件快速增长？从互联网上我知道我可以关闭hdfs并删除日志，但这不是好的解决方案。如何避免这个问题？非常感谢你最佳答案 block扫描器是导致文件增长的原因。这是解释该行为的文章的链接:http://aosabook.org/en/hdfs.h

hadoop hdfs section strong

oracle - 将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是MovedatafromOracletoHDFSProcessthedataonHDFSMoveprocesseddatatoTeradata.还需要每15分钟执行一次整个处理。源数据量可能接近50GB，处理后的数据也可能相同。在网上查了很多，发现ORAOOPtomovedatafromOracletoHDFS(Havethecodewithingtheshellscriptandscheduleittorunattherequiredinterval).DolargescaleprocessingeitherbyCustomMapReduceorHiveorPIG.SQOO

oracle HDFS section blockquote hadoop teradata apache-storm

228 229 230231232 233 234