Hdfs

java - 如何从亚马逊 EMR HDFS 远程读取(或任何其他 hadoop 远程服务器)

我很清楚如何使用hadoopfs-get.....在unix中如何使用java从amazonaws(HDFS)获取文件？这是一个远程服务器。但我需要以某种方式提供一个(ppk文件)。如何在java中完成？添加到此link的代码. 最佳答案扩展“sras”已经注意到的内容。您必须使用org.apache.hadoop.fs.FileSystemAPI。可以远程调用该API，以便您可以从远程主机连接到HDFS。下面的stackoverflow问题实际上有一个代码片段和一些关于验证您的请求的详细解释。HDFSaccessfromremo

javascript - 执行hdfs zkfc命令时出错

我正在尝试使用3台名称节点机器、2台数据节点机器和1台客户端机器运行hdfs。当我执行hdfszkfc–formatZK我有下一个fatalerror，我不知道为什么，因为我已经尝试过其他几次集群并且它有效，但现在它不起作用。16/01/2115:05:14INFOzookeeper.ZooKeeper:Session:0x25264b6c3d90000closed16/01/2115:05:14WARNha.ActiveStandbyElector:IgnoringstaleresultfromoldclientwithsessionId0x25264b6c3d9000016/01/

时出 javascript gt lt property hadoop hdfs apache-zookeeper

hadoop - 从谷歌云存储直接下载文件到 HDFS 和 Hive 表

我在Windows命令行上工作，因为Unix和防火墙的问题阻止gsutil工作。我可以读取我的GoogleCloudStorage文件并将它们复制到其他存储桶(我不需要这样做)。我想知道的是如何将它们直接下载到HDFS(我正在“进入”)？有没有人这样做过？理想情况下，这是第一部分，第二部分是为GoogleCloudStorage数据创建Hive表，以便我们可以使用HiveQL和Pig。最佳答案您可以使用GoogleCloudStorageconnector它为您在GoogleCloudStorage中的数据提供了一个HDFS-A

歌云 hadoop section Storage Google hive hdfs google-cloud-storage

java - slave VM 从 slaves 列表中删除，并且仍然被 Yarn/Tez 访问

所以我从从属虚拟机列表中删除了vm4，当我运行以下命令时它不会访问它hdfsdfsadmin-report结果是:ubuntu@anmol-vm1-new:~$hdfsdfsadmin-report15/12/1406:56:12WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableConfiguredCapacity:1268169326592(1.15TB)PresentCapacity:1199270457

仍然 slaves code hadoop Remaining java hdfs hadoop-yarn master-slave

hadoop - AWS - Hadoop 集群 - 节点启动但不工作

我在我的本地服务器中设置了hadoop集群，它运行良好，我正在将其复制到AWS服务器(1个主NN、1个辅助名称节点、7个从属节点)，我能够启动我的hadoop。但是我无法打开像:50070/dfshealth.jsp这样的页面。我已经正确地完成了安装，并且ssh公钥身份验证也与我在本地设置中所做的一样。日志中也没有异常的东西。还有什么我可以调查的吗？最佳答案如果日志正常，则确保打开必要的Hadoop端口。与您的本地设置不同，在AWS中，您应该询问他们要打开的特定端口。在这种情况下，您必须请求打开所需的Hadoophttp和RPC

hadoop section 中设 amazon-web-services hdfs cluster-computing

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录？说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等最佳答案我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取，我们在StackOver

自定摄取 section code hadoop apache-kafka flume

hadoop - 如何查看hadoop服务的端口号

如何查看hadoop服务的端口号eg:hive,oozie,sqoop,pig等的端口号。听说每个hadoop服务都有一个端口号。最佳答案通常端口用于在配置文件中配置它自己，在“/etc/hadoop/conf/”或“/usr/local/hadoop/conf/”位置“hadoop”下可用，具有受人尊敬的名称，如“pig/hive/sqoop”等。名为“hdfs-site.xml/core-site.xml/hive-site.xml/mapred-site.xml...等”的配置Hadoop及其生态系统使用的一些默认端口是:

hadoop 如何 section address hive hdfs port bigdata

hadoop - Flume 假脱机目录源 : Cannot load files larger files

我正在尝试使用flume假脱机目录将数据摄取到HDFS(SpoolDir>MemoryChannel>HDFS)。我正在使用ClouderaHadoop5.4.2。(Hadoop2.6.0，Flume1.5.0)。它适用于较小的文件，但不适用于较大的文件。请在下面找到我的测试场景:大小为KB到50-60MBytes的文件，处理无问题。大于50-60MB的文件，它将大约50MB写入HDFS，然后我发现flumeagent意外退出。水槽日志中没有错误消息。我发现它试图多次创建“.tmp”文件(HDFS)，并且每次在意外退出之前写入几兆字节(有时2MB，有时45MB)。一段时间后，最后尝试的

files hadoop spoolDir hdfs sink_to_hdfs large-files flume

hadoop - 加入 : space available is below the configured reserved amount 的配置单元查询

我在单节点集群上使用hive执行sql查询，我收到此错误:MapReduceJobsLaunched:Stage-Stage-20:HDFSRead:4456448HDFSWrite:0FAILTotalMapReduceCPUTimeSpent:0msec在日志http://localhost:50070/logs/hadoop-hadoop-namenode-hadoop.log中，可用空间似乎低于配置的保留量:org.apache.hadoop.hdfs.server.namenode.NameNodeResourceChecker:Spaceavailableonvolume'

配置单 configured java Stage apache hadoop hive hdfs hql

hadoop - 如何将外部创建的 ORC 文件加载到存储为 ORC 的 HIVE 表中？

我创建了一个存储为ORC的托管配置单元表，当加载.txt文件时它工作正常，但是我无法将ORC文件加载到该表中。与分隔符有什么关系吗？还是我错过了什么？最佳答案下面的代码对我有用，同时将HDFS中存在的ORC文件加载到配置单元表中。在hive中创建一个表。createtableMyDB.TEST(Col1String,Col2String,Col3String,Col4String)STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTF

ORC hadoop section 配置单 String hive hdfs hiveql

41 42 434445 46 47