草庐IT

hdfs_clusters

全部标签

hadoop - 检查HDFS中的目录是否为空

HDFS有没有检查目录是否为空的命令 最佳答案 count:hdfsdfs-count/path100/path输出列为:DIR_COUNT、FILE_COUNT、CONTENT_SIZE、PATHNAMEdu:hdfsdfs-du-s/path0/path如果有0字节文件或空目录,结果仍然是0。 关于hadoop-检查HDFS中的目录是否为空,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - HDFS 文件比较

由于没有diff,我如何比较两个HDFS文件?我正在考虑使用Hive表并从HDFS加载数据,然后在2个表上使用连接语句。有没有更好的方法? 最佳答案 hadoop没有提供diff命令,但您实际上可以在shell中使用diff命令使用重定向:diff如果您只想知道2个文件是否相同而不关心差异,我会建议另一种基于校验和的方法:您可以获取两个文件的校验和,然后比较它们。我认为Hadoop不需要生成校验和,因为它们已经存储,所以它应该很快,但我可能是错的。我认为没有命令行选项,但您可以使用JavaAPI轻松完成此操作并创建一个小应用程序:F

hadoop - 为什么不建议将 RAID 用于 Hadoop HDFS 设置?

各种网站(如Hortonworks)建议不要为HDFS设置配置RAID,主要有两个原因:速度受限于较慢的磁盘(JBOD性能更好)。可靠性推荐在NameNode上使用RAID。但是如何在每个DataNode存储磁盘上实现RAID呢? 最佳答案 RAID有两个用途。根据RAID配置,您可以获得:更好的性能:读取一个文件可以分布在多个磁盘上,或者不同的磁盘可以透明地用于从同一文件系统读取多个文件。容错:使用多个磁盘上的奇偶校验位复制或存储数据。如果磁盘出现故障,它可以从另一个副本恢复或使用奇偶校验位重新计算。HDFS具有类似的内置软件机制

hadoop - 为什么 DataFrame.saveAsTable ("df") 将表保存到不同的 HDFS 主机?

我已经用Spark(1.4.0)配置了Hive(1.13.1),我可以从hive访问所有数据库和表,我的仓库目录是hdfs://192.168.1.17:8020/用户/hive/仓库但是,当我尝试使用df.saveAsTable("df")函数通过Spark-Shell(使用master)将Dataframe保存到Hive中时,我遇到了这个错误。15/07/0314:48:59INFOaudit:ugi=userip=unknown-ip-addrcmd=get_database:default15/07/0314:48:59INFOHiveMetaStore:0:get_table

hadoop - hdfs 数据节点与名称节点断开连接

我不时在clouderamanager中收到以下错误:ThisDataNodeisnotconnectedtooneormoreofitsNameNode(s).和TheClouderaManageragentgotanunexpectedresponsefromthisrole'swebserver.(通常在一起,有时只有一个)在SO和Google中对这些错误的大多数引用中,问题是配置问题(数据节点永远不会连接到名称节点)在我的例子中,数据节点通常在启动时连接,但在一段时间后会断开连接-所以这似乎不是一个错误的配置。还有其他选择吗?是否可以强制数据节点重新连接到名称节点?是否可以从数

hadoop - YARN 如何决定创建多少个容器? (为什么S3a和HDFS有区别?)

我正在使用当前版本的Hadoop,并运行一些TestDFSIO基准测试(1.8版)来比较默认文件系统是HDFS与默认文件系统是S3存储桶的情况(通过S3a使用)。在默认文件系统为S3a的情况下读取100x1MB文件时,我观察到YARNWebUI中的最大容器数小于默认情况下的HDFS,而S3a约为慢4倍。当使用默认文件系统S3a读取1000x10KB文件时,我观察到YARNWebUI中的最大容器数至少比默认为HDFS,S3a大约慢16倍。(例如,默认情况下HDFS的测试执行时间为50秒,而默认情况下S3a的测试执行时间为16分钟。)启动的maptask的数量在每种情况下都符合预期,这方面

hadoop/yarn 和非 hdfs 文件系统上的任务并行化

我已经实例化了一个Hadoop2.4.1集群,我发现运行MapReduce应用程序的并行化取决于输入数据所在的文件系统类型。使用HDFS,MapReduce作业将生成足够多的容器以最大限度地利用所有可用内存。例如,一个172GB内存的3节点集群,每个map任务分配2GB内存,将创建大约86个应用程序容器。在非HDFS的文件系统上(如NFS或在我的用例中,并行文件系统),MapReduce作业将仅分配可用任务的子集(例如,对于相同的3节点集群,大约25-创建了40个容器)。由于我使用的是并行文件系统,因此我不太关心使用NFS时会发现的瓶颈。是否有YARN(yarn-site.xml)或M

hadoop - 运行 Hadoop MapReduce,是否可以调用 HDFS 外部的外部可执行文件

在我的映射器中,我想调用安装在HDFS之外的工作节点上的外部软件。这可能吗?执行此操作的最佳方法是什么?我知道这可能会带走MapReduce的一些优势/可扩展性,但我想在HDFS中进行交互,并在我的映射器中调用编译/安装的外部软件代码来处理一些数据。 最佳答案 Mappers(和reducers)就像盒子上的任何其他进程一样-只要TaskTracker用户有权运行可执行文件,这样做就没有问题。有几种调用外部进程的方法,但由于我们已经在J​​ava中,ProcessBuilder似乎是一个合乎逻辑的起点。编辑:刚刚发现Hadoop有一

hadoop - hdfs 日志文件太大

在对hdfs进行了大量的读写操作之后,(我不知道导致这个问题的确切操作)。这两个文件:dncp_block_verification.log.curr,dncp_block_verification.log.prev每个都超过200000000000字节。对hdfs进行哪些操作可能会导致这些文件快速增长?从互联网上我知道我可以关闭hdfs并删除日志,但这不是好的解决方案。如何避免这个问题?非常感谢你 最佳答案 block扫描器是导致文件增长的原因。这是解释该行为的文章的链接:http://aosabook.org/en/hdfs.h

oracle - 将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata

我的要求是MovedatafromOracletoHDFSProcessthedataonHDFSMoveprocesseddatatoTeradata.还需要每15分钟执行一次整个处理。源数据量可能接近50GB,处理后的数据也可能相同。在网上查了很多,发现ORAOOPtomovedatafromOracletoHDFS(Havethecodewithingtheshellscriptandscheduleittorunattherequiredinterval).DolargescaleprocessingeitherbyCustomMapReduceorHiveorPIG.SQOO