草庐IT

HDFS-HAWQ

全部标签

macos - HDFS和Hadoop 1.0.3的疑惑

我是Hadoop的新手,我一直在尝试设置我的本地机器并运行几个示例来了解该过程的工作原理。我在我的MAC上安装了hadoop1.0.3。我有一系列的问题,我会在描述我到目前为止所做的事情时问他们。我按照说明here.虽然我正在设置独立操作,但最终得到了伪分发。Q1.)有什么区别?编辑了我的.bash_profileexportHADOOP_HOME=/Library/hadoop-1.0.3exportJAVA_HOME=$(/usr/libexec/java_home)在OSX上创建到本地主机的无密码ssh。然后$sshlocalhost。然后$$HADOOP_HOME/bin/ha

hadoop - 对HDFS、HBase和Hive的一些疑惑

我对Hadoop生态系统有几个疑问。渴望很好地理解这些概念。Hive表在哪里存储数据?对于Datawarehouse,我们是否需要在Hive和Hbase表中拥有相同的数据。我们如何从Hbase插入、更新和读取数据。HDFS可以存储除csv之外的所有文件格式。我们可以在Hbase上安装PIG吗?如果我有Hive,我可以省略Hbase表吗? 最佳答案 答案,按顺序:Hive通常将数据存储在其配置的文件系统目录下的表名目录中,通常是/user/hive/warehouse的HDFS目录,可通过hive-site.xml进行调整hive.m

shell - 如何打开hdfs ://localhost:54310/user/hduser/

我尝试使用命令在hadoop中创建一个目录hadoopfs-mkdir计数那么如何在单节点集群上打开或查看hdfs://localhost:54310/user/hduser/count? 最佳答案 要查看文件夹及其内容,您可以执行如下操作:hadoopfs-lscount如果你想获取内容到你的本地文件系统,那么你可以使用gethadoopfs-getcount有关所有命令行选项的更多详细说明,请阅读here. 关于shell-如何打开hdfs://localhost:54310/use

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后,我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/,我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时,我看到了这个设置,这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗?davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

hadoop - 无法查看 HDFS 上的文件

我在我的HDFS上创建了一些文件。我能够执行hadoopfs-ls命令来查看它们并且工作正常。后来我无法查看它们。因此,我尝试格式化名称节点并将文件重新添加进去,它说文件已经存在。知道为什么会这样吗?如果我无法查看文件,如何删除它们?我能够在浏览器上查看文件。 最佳答案 您似乎以用户yeshwanthvenkatesh的身份登录。当您在没有路径的情况下运行hadoopfs-ls时,hadoop会向您显示您的主目录(可能是/user/yeshwanthvenkatesh)的内容,该目录似乎是空的。您可以尝试运行:hadoopfs-ls

hadoop - 使用 elasticsearch 索引 HDFS 文件

如何使用Elasticsearch对存储在HDFS中的文档进行索引?如果记录已经以JSON格式存储为字符串,这会有帮助吗?我也有HBase表中的数据,如果我可以将Elasticsearch与HBase一起使用(以更合适的为准)。非常感谢任何指导。提前致谢 最佳答案 elasticsearch人员构建了一些工具,以便ES和Hadoop可以很好地协同工作。我没有使用过它们中的任何一个,但这里有一个或两个链接:ElasticsearchforHadoopDocoElasticsearchforHadoopGitRepo

Hadoop-我想使用 hdfs 中的文件在配置单元中加载表

我无法在本地创建文件。你能告诉我如何以及在哪里创建示例本地文件吗?我对本地和hdfs有点困惑。如何将文件从本地移动到HDFS,移动后如何检查文件是否在hdfs中。我是hadoop的新手。谢谢,内存 最佳答案 假设您使用的是基于Linux的操作系统使用创建文件:$nano/path/to/file.txt.您必须在创建文件的目录中具有足够的权限。将文件移动到HDFS(作为有权访问HDFS的用户,比如hdfs用户):hadoopfs-put/path/to/file.txt检查文件:hadoopfs-ls/user/检查文件内容:had

hadoop - 无法将文件放入HDFS

我正在尝试设置一个hadoop多节点集群,但遇到了以下问题。我有一个节点作为主节点,另一个节点作为从节点。似乎一切正常,因为当我执行{jps}时,我得到了master的这个过程:{29983SecondaryNameNode30596Jps29671NameNode30142ResourceManager}这是给奴隶的:{18096NodeManager17847DataNode18197Jps}不幸的是,当我尝试使用-put命令时,出现了这个错误:hduser@master:/usr/local/hadoop/bin$./hdfsdfs-put/home/hduser/Ejemplo

hadoop - CDH4.4 : Restarting HDFS and MapReduce from shell

我正在尝试使用bash脚本在ClouderaHadoop4.4集群上自动停止、格式化和启动HDFS和MapReduce服务。使用“pkill-Uhdfs&&pkill-Umapred”可以很容易地终止HDFS和MapReduce进程,但是如何在不使用ClouderaManagerGUI的情况下再次启动这些进程? 最佳答案 好吧,显然CM有一个非常棒的AP​​I在这里查看http://cloudera.github.io/cm_api/ 关于hadoop-CDH4.4:Restarting

hadoop - MPI 读写 HDFS

有谁知道从MPI中读取/写入文件到我的hdfs的好方法吗?我已经进行了大量的挖掘工作,试图弄清楚这一点,只需要一个大致的方向即可。 最佳答案 MPI标准中有一整章是关于MPII/O的。我将从那里开始阅读。MPI实现有这个实现,通常使用ROMIO。您也可以看看那个。 关于hadoop-MPI读写HDFS,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/23943803/