草庐IT

linux - 安装和获取当前的 dfs.name.dir 和 dfs.data.dir 值

我没有在hdfs-site.xml文件中设置dfs.name.dir和dfs.data.dir值没有设置。他们会怎样?有趣的是,他们默认接受什么值?(如何接收他们的当前值?) 最佳答案 dfs.name.dir的默认值为${hadoop.tmp.dir}/dfs/data和dfs.data.dir是${hadoop.tmp.dir}/dfs/data。如果hadoop.tmp.dir的值未使用-D选项或配置文件设置,则默认值为/tmp/hadoop-${user.name}user.name是您用来登录系统的用户名。对于所有默认值,

hadoop - pig : How to load the output of an hdfs ls into an alias?

我正在尝试查看我的hdfs中的文件并评估哪些文件早于特定日期。我想执行一个hdfsls并将它的输出传递给一个pigLOAD命令。在对HowCanILoadEveryFileInaFolderUsingPIG?的回答中@DonaldMiner包含一个输出文件名的shell脚本;我借用它来传递文件名列表。但是,我不想加载文件的内容,我只想加载ls命令的输出并将文件名视为文本。这是myfirstscript.pig:test=LOAD'$files'as(moddate:chararray,modtime:chararray,filename:chararray);illustratetes

hadoop - 数据节点容量为0kb

我正尝试着手研究Hadoop。我的问题可能很基本,请耐心等待。我正在阅读Hadoop:权威指南并遵循天气数据教程。将数据复制到HDFS时,出现以下错误:13/09/0216:34:35ERRORhdfs.DFSClient:Failedtoclosefile/user/bhushan/gz/home/bhushan/ncdc_data/ftp3.ncdc.noaa.gov/pub/data/noaa/1901.gzorg.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/bhushan/gz/home/bhu

eclipse - 将文本文件上传到 HDFS(hadoop) 的最快方法

我正在尝试将100万个文本文件上传到HDFS。因此,使用Eclipse上传这些文件大约需要2个小时。任何人都可以建议我做这件事的任何快速技术吗?我在想的是:将所有文本文件压缩成一个zip,然后将其上传到HDFS,最后使用一些解压缩技术,我会将这些文件解压缩到HDFS。任何帮助将不胜感激。 最佳答案 Distcp是将文件上传到HDFS的好方法,但对于您的特定用例(您想将本地文件上传到在同一台计算机上运行的单节点集群),最好不要将文件上传到HDFS全部。您可以使用localfs(file://a_file_in_your_local_d

hadoop - 如何从本地磁盘而不是 HDFS 上的数据在 Hive 上创建外部表?

对于HDFS上的数据,我们可以做CREATEEXTERNALTABLE{idINT,nameSTRING,ageINT}LOCATION'hdfs_path';但是如何为上面的LOCATION指定本地路径呢?谢谢。 最佳答案 您可以先使用“hdfsdfs-put”将文件上传到HDFS,然后在其上创建Hive外部表。Hive无法在本地文件上创建外部表的原因是,当Hive处理数据时,实际处理发生在Hadoop集群上,您的本地文件可能根本无法访问。 关于hadoop-如何从本地磁盘而不是HDF

hadoop - 如何在 Amazon EMR 上重启 HDFS

我对AmazonEMR集群上的HDFS设置进行了一些更改。我想重新启动名称节点和数据节点以使更改生效。我无法在名称节点(主节点)和数据节点上找到任何启​​动和停止脚本来执行此操作。应该怎样重启集群? 最佳答案 在EMR4上,在master主机上运行以下命令-sudo/sbin/starthadoop-hdfs-namenodessh-i"sudo/sbin/restarthadoop-hdfs-datanode"ssh-i"sudo/sbin/restarthadoop-hdfs-datanode"ssh-i"sudo/sbin/r

python - 子进程打开以运行命令(HDFS/hadoop)

我正在尝试使用subprocess.popen在我的机器上运行命令。这是我目前的情况cmdvec=['/usr/bin/hdfs','dfs','-text','/data/ds_abc/clickstream/{d_20151221-2300}/*','|','wc','-l']subproc=subprocess.Popen(cmdvec,stdout=subprocess.PIPE,stdin=None,stderr=subprocess.STDOUT)如果我在我的终端中运行命令,我会得到一个输出15/12/2116:09:31INFOlzo.GPLNativeCodeLoade

hadoop - 上传资源文件时 createBlockOutputStream 中的 Spark HDFS 异常

我正在尝试使用yarn-cluster在集群中运行我的JAR,但一段时间后出现异常。失败前的最后一个INFO是Uploadingresource。我检查了所有安全组,成功执行了hsdfls但仍然出现错误。./bin/spark-submit--classMyMainClass--masteryarn-cluster/tmp/myjar-1.0.jarmyjarparameter16/01/2116:13:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-j

shell - 你如何移动文件而不是 hdfs 中的目录?

一段时间以来,我一直在努力寻找解决这个问题的方法。我发现在使用shell的普通文件系统中,您可以使用此命令将所有文件移动到某个位置下,但保留目录不变。find.-maxdepth1-typef-execmv{}destination_path\;我想知道是否还有一个命令可以在hdfs中执行相同的操作。因此,如果我在hdfs中有一个名为“folder1”的文件夹,其中包含文件“copyThis.txt”、“copyThisAsWell.txt”和“theFinalCopy.txt”,还包含一个文件夹“doNotCopy”,我想复制将文件放入名为“folder2”的新文件夹中,但将文件夹“

hadoop - hive理解表的创建

我正在服用mooc.它告诉我们使用以下命令将一些文件从我们的PC上传到hdfsazurestorageblobuploadlocal_pathcontainerdata/logs/2008-01.txt.gz我也是这样做的。后来当我在PUTTY安全shell中键入以下命令时,我能够看到该文件hdfsdfs-ls/data/logsFound6items-rwxrwxrwx13319412016-03-0315:56/data/logs/2008-01.txt.gz-rwxrwxrwx13319412016-03-0315:58/data/logs/2008-02.txt.gz-rwxr