草庐IT

amazon-ec2 - 使用 s3 作为 fs.default.name 或 HDFS?

我正在EC2上设置Hadoop集群,我想知道如何进行DFS。我所有的数据目前都在s3中,所有map/reduce应用程序都使用s3文件路径来访问数据。现在我一直在研究Amazon的EMR是如何设置的,它似乎为每个作业流设置了一个名称节点和数据节点。现在我想知道我是否真的需要那样做,或者我是否可以只使用s3(n)作为DFS?如果这样做,有什么缺点吗?谢谢! 最佳答案 为了使用S3而不是HDFS,core-site.xml中的fs.name.default需要指向您的存储桶:fs.default.names3n://your-bucke

无法使用 hadoop fs -ls har ://hdfs-master/tank/zoo. har/查找 Hadoop 归档文件

这是我在hdfs上的文件:hadoopfs-ls/Found5items-rw-r--r--3hadoopsupergroup252016-04-1811:29/abc.txtdrwxr-xr-x-hadoopsupergroup02016-04-1711:39/hbasedrwxr-xr-x-hadoopsupergroup02016-04-1811:49/tankdrwx-------hadoopsupergroup02016-04-1811:30/tmp-rw-r--r--3hadoopsupergroup662016-04-1811:29/user.txthadoopfs-ls

hadoop - fs.defaultFS 只监听localhost的8020端口

我有一个CDH4.3一体机启动并运行,我正在尝试远程安装一个hadoop客户端。我注意到,在不更改任何默认设置的情况下,我的hadoop集群正在监听127.0.0.1:8020。[cloudera@localhost~]$netstat-lent|grep8020tcp00127.0.0.1:80200.0.0.0:*LISTEN492100202[cloudera@localhost~]$telnet${all-in-onevmexternalIP}8020Trying${all-in-onevmexternalIP}...telnet:connecttoaddress${all-i

java - hadoop fs -mkdir 没有创建所需的文件夹

我正在尝试执行简单的HadoopMapreduceWordcount示例。我正在关注这个guide运行程序。其中一个步骤是在hdfs文件系统上创建输入和输出文件夹。hadoopdfs-mkdir-p/usr/local/hadoop/input但这给了我这个错误:DEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.16/09/2510:57:58WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryf

hadoop fs -rm -skipTrash 不起作用

我使用以下方法将一些文件从一个目录复制到另一个目录hadoopdistcp-Dmapreduce.job.queuename=adhoc/user/comverse/data/$CURRENT_DATE_NO_DASH_*/*rcr.gz/apps/hive/warehouse/arstel.db/fair_usage/fct_evkuzmin04/file_rcr/我在scipt完成之前停止了它,剩下很多.distcp.tmp.attempt和完成移动到dst目录中的文件现在我想清理dst目录。运行后hadoopfs-rm-skipTrash/apps/hive/warehouse/

hadoop - Hadoop fs 和常规 Unix 命令有什么区别?

我是Hadoop和HDFS的新手,我想了解为什么需要Hadoopfs命令而不是仅使用Unix命令等价物。它们似乎都有效,我的第一个想法是Hadoop命令直接与HDFSnamenode接口(interface)并将其传播到所有节点。然而,当我只使用Unixshell命令时,情况似乎就是这样。我翻遍了互联网,没有找到简单的解释。非常感谢帮助。或指向差异解释的链接。 最佳答案 如果您通过NFS在HDFS上运行,那么您可以期望大多数简单的命令都能正常工作(例如ls、cd、mkdir、mv、rm、chmod、chgrp、chown)。hado

bash - 无法找到或加载主类 org.apache.hadoop.fs.FsShell

我知道这个问题可能已经回答了,好吧,我的问题仍然在这里:我使用CentOS7在vmware上为hadoop创建了一个虚拟机,我可以启动名称节点和数据节点,但是,当我尝试使用以下命令查看hdfs文件时:hdfsdfs-ls它抛出以下错误:Couldnotfindorloadmainclassorg.apache.hadoop.fs.FsShell我的谷歌搜索表明这可能与bash中的hadoop变量设置有关,这是我的设置:#.bashrc#Sourceglobaldefinitionsif[-f/etc/bashrc];then./etc/bashrcfiexportHADOOP_HOME

hadoop - 你如何在谷歌存储的数据处理上执行 hadoop fs -getmerge

如何在dataproc上使用getmerge处理转储到google存储桶的部分文件。如果我尝试这个hadoopfs-getmergegs://my-bucket/temp/part-*gs://my-bucket/temp_merged我得到一个错误getmerge:/temp_merged(权限被拒绝)它适用于hadoopfs-getmergegs://my-bucket/temp/part-*temp_merged但当然是在集群机器上而不是在GS中写入合并文件。 最佳答案 根据fsshelldocumentation,getme

hadoop - Alluxio 错误 :java. lang.IllegalArgumentException:错误的 FS

我可以使用cloudera提供的示例jar在alluxio上运行wordcount,使用:sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jarwordcount-libjars/home/nn1/alluxio-1.2.0/core/client/target/alluxio-core-client-1.2.0-jar-with-dependencies.jaralluxio://nn1:19998/wordcountalluxio://nn1:19998/wc1这是成功的。但是当我使用附加代码创建的

java - 在hadoop FS中写一个二叉树

我需要将二叉树写入HDFS,我将使用它来表示决策树。但是为了做到这一点,我首先需要创建一个BinaryTreeNode类,它将成为树节点。这些是我的类属性:privateStringname;privateStringattribute;privateStringattType;privateStringcondition;privateStringlines;privateBinaryTreeNodeleftChild;privateBinaryTreeNoderightChild;所以现在我需要实现用于读取和写入这些节点的write和readFields方法。这些是我所做的:pub