hdfs_rtp

hadoop - 如何将mac连接到hadoop/hdfs集群

我有用于在集群中运行的CDH，并且我可以通过ssh访问机器。我需要将我的Mac连接到集群，所以如果我执行hadoopfs-ls，它应该会显示集群的内容。我配置了HADOOP_CONF指向集群的配置。我在我的集群中运行CDH4。我在这里遗漏了什么吗，可以连接吗？我需要做一些sshkey设置吗？最佳答案您需要确保执行此操作的一些事项:您需要将您的HADOOP_CONF_DIR环境变量设置为指向一个目录，该目录包含指向您的集群的配置XML。您的Mac应该能够直接访问构成集群的主机(所有主机)。这可以通过VPN完成，例如-如果集群不

java - 没有文件所有者的 S3 HDFS - AccessControlException

我目前正在运行一个用于HDFS和MapReduce的小型Hadoop集群，并且我正在尝试按照此处的页面将S3换成本地HDFS:AmazonS3forHDFS我遇到的问题是，当启动JobTracker时，如果元数据(jobtracker.info)已经存在，当Hadoop尝试访问/覆盖此文件时，它无法打开它，因为该文件的所有者确实与MapRed所有者不匹配。在hadoop-core-1.0.3(JobTracker.java)中，比较:FileStatussystemDirStatus=fs.getFileStatus(systemDir);if(!systemDirStatus.get

AccessControlException 所有者 34 code hadoop java amazon-s3 mapreduce hdfs

hadoop - hdfs 局域网ip地址主机名解析

我正在我的LAN上设置2个从站的hdfs集群。每当我给他们的IP地址。HDFS尝试从中获取主机名。它只能在ip地址而不是主机名上工作吗？是否有一个设置来告诉工作只使用ip地址而不使用主机名？最佳答案它似乎不能单独对IP地址起作用。Fortheclustertofunctioncorrectly,thepartofthestringmustbethehostname(forexamplemynamenode)nottheIPaddress.阅读更多here.也引用自here，配置dfs.datanode.dns.nameserve

局域 hadoop section blockquote the hdfs

hadoop - 通过 flume 将事件数据写入 HDFS 时出错

我正在使用cdh3update4tarball进行开发。我已经启动并运行了hadoop。现在，我还从clouderaviz1.1.0下载了等效的flumetarball，并尝试使用hdfs-sink将日志文件的尾部写入hdfs。当我运行flume代理时，它启动正常，但在尝试将新事件数据写入hdfs时以错误告终。我找不到比stackoverflow更好的小组来发布这个问题。这是我正在使用的水槽配置agent.sources=exec-sourceagent.sinks=hdfs-sinkagent.channels=ch1agent.sources.exec-source.type=ex

时出 hadoop java apache hdfs cloudera flume

eclipse - HDFS Web 界面替代方案

好吧，这很烦人!我是Hadoop的新手。我正试图找到基本HDFSWeb界面的合适替代品。我尝试使用hadoopeclipse插件，但似乎它已经过时了，正确设置它很痛苦!我安装了cloudera的发行版，我听说过clouderadesktop，但它不再可用。谁能告诉我HDFSWeb界面的不错替代方案，我可以通过GUI轻松地将文件下载和上传到HDFS？P.S我正在本地运行所有内容，不，涉及集群。尝试了很多寻找，但似乎没有任何东西指向正确的方向最佳答案您可以使用webhdfs，其RESTAPI支持HDFS的完整文件系统接口(inter

eclipse HDFS section hadoop eclipse-plugin

hadoop - 如何在 mapper 或 reducer 中运行外部程序，将 HDFS 文件作为输入并将输出文件存储在 HDFS 中？

我有一个将文件作为输入并给出输出文件的外部程序//forexampleinputfile:IN_FILEoutputfile:OUT_FILE//RunExternalprogram./vx${OUT_FILE}我想要HDFS中的输入和输出文件我有8个节点的集群。我有8个输入文件，每个文件有1行//1inputfile:1.txt1:0,0,0//2inputfile:2.txt2:0,0,128//3inputfile:3.txt3:0,128,0//5inputfile:4.txt4:0,128,128//5inputfile:5.txt5:128,0,0//6inputfile:

中运并将 34 code pre hadoop mapreduce

Hadoop 文件系统读取 linux 文件系统而不是 hdfs？

我发生了一件奇怪的事情，当我阅读hadoop文件系统时，它显示的是linux文件系统而不是hadoop文件系统，有人熟悉这个问题吗？谢谢，米卡最佳答案如果找不到有效的hadoop配置，就会发生这种情况。例如如果你这样做:hadoopfs-ls并且在默认位置没有找到任何配置，然后您将看到linux文件系统。您可以通过在“hadoop”命令之后添加-conf选项来对此进行测试，例如hadoop-conf=fs-ls 关于Hadoop文件系统读取linux文件系统而不是hdfs？，我们在S

Hadoop linux section code

mysql - sqoop从hdfs导出到mysql是否保留分区

我已经创建了一个多节点hadoop集群并在其上安装了hive。另外，我在另一台远程机器上安装了MySQL。我打算将存储在HDFS中的数据导出到关系型数据库MySQL中。我研究了如何使用Sqoop完成此操作。所以我发现我需要在MySQL中创建一个表，该表具有相同顺序的目标列(与Hive中存在的一样)，并具有适当的SQL类型。然后使用sqoopexport命令。我的问题是:如果表在Hive中分区，并且在MySQL中创建表时我相应地对其进行分区，sqoopexport命令会保留分区吗？我的问题类似于sqoopexportmysqlpartition.我想知道分区支持是否已添加到sqoop。这

mysql sqoop section 中创 apache hadoop hive

hadoop - (HDFS) 如何在集群内安全复制大数据？

我必须制作大样本数据(比如1TB)并且有大约20GB的文本文件。所以我尝试只复制50次以使其更大，但每次我尝试hadoopfs-cp命令时，我的一些数据节点都会死掉。我听说在UNIX中，删除大数据时可以使用SHRINK安全地从磁盘中删除数据。hadoop中有类似的东西来复制大数据吗？简而言之，有什么方法可以在hadoop集群内安全地复制大数据？还是我必须修改一些配置文件？最佳答案试试distcp。它在后台运行MR作业以复制数据，使我们能够利用Hadoop提供的并行性。关于hadoo

大数何在 section hadoop hdfs

hadoop - 从 hdfs 读取数据并将其存储到 hbase？

我有表格中的数据:source,destination,connection这个数据保存在hdfs中我想读取这些数据并将其放入hbase表中，如下所示:Column1(source)|Column2(Destination)|Column3(ConnectionType)RowvertexA|vertexB|connection我该怎么做？谢谢最佳答案引用LoadingcsvdataintoHbase.他们使用逗号分隔值，但您可以将其更改为使用空格关于hadoop-从hdfs读取数

并将 hadoop section stackoverflow hbase

131 132 133134135 136 137