hdfs-agent

hadoop - Hive 如何存储数据(从 HDFS 加载)？

我对Hadoop(HDFS和Hbase)和Hadoop生态系统(Hive、Pig、Impala等)相当陌生。我对NamedNode、DataNode、JobTracker、TaskTracker等Hadoop组件以及它们如何协同工作以高效方式存储数据有了很好的理解。在尝试了解Hive等数据访问层的基础知识时，我需要了解表的数据(在Hive中创建)的确切存储位置？我们可以在Hive中创建外部表和内部表。由于外部表可以在HDFS或任何其他文件系统中，因此Hive不会将此类表的数据存储在仓库中。内部表呢？该表将创建为Hadoop集群上其中一个数据节点上的目录。一旦我们从本地或HDFS文件系统

hadoop Hive 中创 section hbase hdfs bigdata

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件？这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成？添加到此link的代码. 最佳答案扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API，以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

hadoop java section stackoverflow amazon-web-services hdfs

javascript - 执行hdfs zkfc命令时出错

我正在尝试使用3台名称节点机器、2台数据节点机器和1台客户端机器运行hdfs。当我执行hdfszkfc–formatZK我有下一个fatalerror，我不知道为什么，因为我已经尝试过其他几次集群并且它有效，但现在它不起作用。16/01/2115:05:14INFOzookeeper.ZooKeeper:Session:0x25264b6c3d90000closed16/01/2115:05:14WARNha.ActiveStandbyElector:IgnoringstaleresultfromoldclientwithsessionId0x25264b6c3d9000016/01/

时出 javascript gt lt property hadoop hdfs apache-zookeeper

hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

我在Windows命令行上工作，因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)？有没有人这样做过？理想情况下，这是第一部分，第二部分是为GoogleCloudStorage数据创建Hive表，以便我们可以使用HiveQL和Pig。最佳答案您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A

歌云 hadoop section Storage Google hive hdfs google-cloud-storage

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录？说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等最佳答案我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取，我们在StackOver

自定摄取 section code hadoop apache-kafka flume

hadoop - Cloudera 用户不允许在 hadoop 上操作 hdfs 系统

我正在尝试在hdfshadoop文件系统中创建一个文件夹，但它不允许我使用用户cloudera或root创建文件夹。我应该配置什么以使其允许我使用hier是我的尝试:[cloudera@quickstart~]$sudohadoopfs-mkdir/solr/test_coremkdir:Permissiondenied:user=root,access=WRITE,inode="/solr":solr:supergroup:drwxr-xr-x[cloudera@quickstart~]$suPassword:[root@quickstartcloudera]#hadoopfs-mk

上操 hadoop section cloudera solr

hadoop - hdfs什么时候改变目录的访问时间和修改时间？

假设我的hdfs文件系统中有以下层次结构Dir1->Dir2->File1如果我将名为File2的文件添加到/Dir1/Dir2，Dir1和Dir2的访问和修改时间是否会发生变化？一般来说，这两个值什么时候改变？还有如何通过HadoopJavaAPI访问这两个值？谢谢你的回答最佳答案 Dir2的时间戳改变了，但Dir1没有。只有直接目录时间戳发生变化。您可以在Java中使用以下代码获取时间戳:FileSystemfs=FileSystem.get(URI.create(uri),conf);longmoddificationTim

hadoop hdfs section code Dir

hadoop - HDFS 加密错误 | root 不允许做 'CREATE_KEY'

我正在使用HDP沙箱，并将RangerKMS安装为KMS服务器。我在沙盒上触发了以下命令。hadoopkeycreatetestKey结果我得到了以下异常。testKeyhasnotbeencreated.org.apache.hadoop.security.authorize.AuthorizationException:User:rootnotallowedtodo'CREATE_KEY'on'testKey'有什么建议吗？最佳答案在RangerKMS中为给定策略添加了HDFS用户并提供了适当的权限。对于前。在这里“创建”k

CREATE_KEY amp section testKey code hadoop hdfs hdpi

hadoop - 使用 sqoop 将数据传输到 hdfs 时出错

我已经使用sqoop在hdfs和oracle之间传输数据，如下所示:hadoop@jiogis-cluster-jiogis-master-001:~$sqoopimport--connectjdbc:oracle:gis-scan.ril.com/SAT--username=r4g_viewer--password=viewer_123--table=R4G_OSP.ENODEB--hive-import--hive-table=ENODEB--target-dir=user/hive/warehouse/proddb/JioCenterBoundary--direct当我使用sqo

时出 hadoop sqoop apache hive

hadoop - 担心 : Corrupt HDFS on single node - how to resolve

我在一台机器上运行CDH5.6(Hadoop2.6，HBase1.0.0)。只有Hadoop和HBase在运行。Hadoop配置为复制因子1，Hbase运行在HDFS之上，没有伪分布式模式。在过去的三天里，我运行了一个简单的程序，该程序使用10个并行线程将行插入到HBase。现在检查它，我发现HDFS已经损坏，除了一个插入线程外，其他所有线程都失败了。运行hdfsfsck/|grepCORRUPT我看到有一些损坏的block。hbasehbck如果没问题，什么都说。重新启动时，hdfsfsck突然再次显示其HEALTHY。开始插入在区域服务器日志中再次出现校验和错误(如下所示)。我终于

担心 Corrupt hadoop apache 2016 hdfs

31 32 333435 36 37