hdfs_clusters

linux - 转瞬即逝 + hive : CLUSTERED TABLE

我在HIVE中有聚簇表。所有查询都在hive-client中工作。但是我不能用这个表运行任何查询:Query...failed:Hivetableiscorrupt.Itisdeclaredasbeingbucketed,butthefilesdonotmatchthebucketingdeclaration.Thenumberoffilesinthedirectory(0)doesnotmatchthedeclaredbucketcount(8)forpartition:在设置hive.enforce.bucketing=true;之后错误:Query...failed:Hiveta

转瞬即逝转瞬 code section bucketing linux hadoop hive presto

hadoop - HDFS 加密错误 | root 不允许做 'CREATE_KEY'

我正在使用HDP沙箱，并将RangerKMS安装为KMS服务器。我在沙盒上触发了以下命令。hadoopkeycreatetestKey结果我得到了以下异常。testKeyhasnotbeencreated.org.apache.hadoop.security.authorize.AuthorizationException:User:rootnotallowedtodo'CREATE_KEY'on'testKey'有什么建议吗？最佳答案在RangerKMS中为给定策略添加了HDFS用户并提供了适当的权限。对于前。在这里“创建”k

CREATE_KEY amp section testKey code hadoop hdfs hdpi

hadoop - 使用 sqoop 将数据传输到 hdfs 时出错

我已经使用sqoop在hdfs和oracle之间传输数据，如下所示:hadoop@jiogis-cluster-jiogis-master-001:~$sqoopimport--connectjdbc:oracle:gis-scan.ril.com/SAT--username=r4g_viewer--password=viewer_123--table=R4G_OSP.ENODEB--hive-import--hive-table=ENODEB--target-dir=user/hive/warehouse/proddb/JioCenterBoundary--direct当我使用sqo

时出 hadoop sqoop apache hive

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统，但磁盘空间很大(200TB)。在我的pig脚本中，我每月加载几个文件，每个文件的大小约为200Gb。我注意到，如果我在我的pig脚本中加载大约一年的数据，Pig会创建大约15k个mappers，整个过程大约需要3个小时(包括reduce步骤)。相反，如果我加载三年的数据(大约5TB)，那么Pig会创建大约30k个mappers，基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈？或者我应该使用一些默认选项？我的pig脚本非常基本:我分组，我数数。非常感谢! 最佳答案

cluster optimal strong section code hadoop apache-pig cloudera

hadoop - 担心 : Corrupt HDFS on single node - how to resolve

我在一台机器上运行CDH5.6(Hadoop2.6，HBase1.0.0)。只有Hadoop和HBase在运行。Hadoop配置为复制因子1，Hbase运行在HDFS之上，没有伪分布式模式。在过去的三天里，我运行了一个简单的程序，该程序使用10个并行线程将行插入到HBase。现在检查它，我发现HDFS已经损坏，除了一个插入线程外，其他所有线程都失败了。运行hdfsfsck/|grepCORRUPT我看到有一些损坏的block。hbasehbck如果没问题，什么都说。重新启动时，hdfsfsck突然再次显示其HEALTHY。开始插入在区域服务器日志中再次出现校验和错误(如下所示)。我终于

担心 Corrupt hadoop apache 2016 hdfs

hadoop - 使用 du 命令查看 HDFS 文件系统的大小

我知道“du-h”命令以人类可读的格式给出了磁盘使用情况。但是请让我知道在我的Hadoop集群的HDFS文件系统上使用“du-h”命令时显示的两个值是什么。[hduser@node2~]$sudo-uhdfshdfsdfs-du-h/6.3K768.0M/hbase00/tmp371.6M743.2M/userHbase内目录的输出:[hduser@node1~]$sudo-uhdfshdfsdfs-du-h/hbase/WALs00/hbase/WALs/hregion-9073552000/hbase/WALs/node1.example.com,60020,14633232428

hadoop HDFS hbase section code

hadoop - HDFS 和冗余

我正在规划数据处理管道。我的场景是这样的:用户上传数据到服务器此数据应分发到我集群中的一个(且仅一个)节点。没有分布式计算，只是选择一个当前最少要做的节点数据处理管道从某种分布式作业引擎获取数据。虽然这是(最后)我的问题:许多工作引擎依赖HDFS来处理数据。但由于此数据仅在一个节点上处理，我宁愿避免分发它。但我的理解是HDFS保持数据冗余-尽管我找不到任何信息，如果这意味着HDFS上的所有数据是否在所有节点上都可用，或者数据主要在处理它的节点(本地)上。如果HDFS上的数据完全冗余，由于我的使用场景的IO原因，我会担心。最佳答案

hadoop HDFS section strong

hadoop - 通过 http 访问存储在 HDFS 中的视频

我想访问存储在HDFS中的视频并在网络浏览器中显示它们。我在github上找到了这个项目(https://github.com/yeleaveszi/Play-Videos-In-HDFS)，它确实做到了这一点，但无法让它工作。任何人都可以提供一些信息或方法，让我可以在网络浏览器上显示存储在HDFS中的视频。也有可能获得存储在HDFS中的视频的HTTP链接，我阅读了有关WebHDFS和HTTPFS的内容，但不太了解。如有任何帮助，我们将不胜感激。提前致谢! 最佳答案使用WebHDFS，您可以获得存储在HDFS中的数据的HTTP链接

hadoop HDFS section https video webhdfs

java - 具有混合输出端点的 Mapreduce 作业 : S3 and HDFS

我有一个在EMR中运行的MR作业，它当前将输出存储在S3中。reducer的输出将是同一映射器(想想身份映射器)的输入，我想尽可能快地执行连续运行，而不是等待EMR写入S3，然后在“x”分钟后安排映射器读取数据。写入和读取S3需要很长时间(~3--5分钟)，所以我想知道是否有办法避免在连续运行时从S3读取？我还需要将mapreduce作业的输出写入S3，因为该数据对我很重要并且需要保留。但是，对于每次连续的MR运行，我不想从S3读取，而是可以将其写入HDFS(或缓存)，然后将其用作下一次运行的输入吗？MultipleOutputs-有助于将数据输出到文件夹中的多个文件或写入多个文件夹。

Mapreduce java section 射器的 hadoop amazon-web-services amazon-s3 emr

Hadoop HDFS 名称节点失败

在我的主节点中重新启动Namenode角色时，我遇到了一个严重的问题。5月27日下午4:50:09.866错误org.apache.hadoop.hdfs.server.namenode.NameNode收到信号15:SIGTERM5月27日下午4:50:10.182信息org.apache.hadoop.hdfs.server.namenode.NameNodeSHUTDOWN_MSG:可以看出，进程正在接收SIGTERM并且Namenode正在关闭。有人知道发生了什么事吗？我应该查看哪些日志以调试导致SIGTERM的问题？我正在使用ClouderaManager。(Cloudera

Hadoop HDFS section strong 日下 cloudera

26 27 282930 31 32