hdfs_草庐IT

rest - webHDFS API 在每次查询时返回异常

我设置了单节点Hadoop集群来使用HDFS进行一些实验。通过网络访问一切看起来都很好，我创建了一个专用文件夹并使用命令行将文件从本地系统复制到它。这一切都出现在网络用户界面中。之后我通过WebHDFS访问它。例如:curl-i"http://127.0.0.1:50075/webhdfs/v1/?op=LISTSTATUS"但在那之后我得到:HTTP/1.1400BadRequestContent-Type:application/json;charset=utf-8Content-Length:154Connection:close{"RemoteException":{"exce

scala - 是否可以在 HDFS 上持久化 RDD？

我知道RDD可以持久化/缓存在内存、磁盘或两者上，但是否也可以将其持久化到HDFS上。我面临的问题是我的集群上的内存和磁盘空间太少，而我的HDFS空间很大。最佳答案 RDD持久化只能在工作机器(内存和磁盘)内进行。一些持久性级别在集群中的其他工作机器中复制RDD。从今天开始，为了在HDFS中持久化RDD/DataFrame，我们只能使用写入API。写入HDFS://WritingDataFramedf.write.save("hdfs://namenode_host:port/file/path");//WritingRDDrdd

持久 scala section RDD hadoop apache-spark hdfs

hadoop - Alluxio 错误 :java. lang.IllegalArgumentException:错误的 FS

我可以使用cloudera提供的示例jar在alluxio上运行wordcount，使用:sudo-uhdfshadoopjar/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jarwordcount-libjars/home/nn1/alluxio-1.2.0/core/client/target/alluxio-core-client-1.2.0-jar-with-dependencies.jaralluxio://nn1:19998/wordcountalluxio://nn1:19998/wc1这是成功的。但是当我使用附加代码创建的

IllegalArgumentException Alluxio code hadoop DistributedFileSystem mapreduce hdfs cloudera-cdh

scala - HDFS 文件系统的 URL

我在HDFS/user/Cloudera/Test/*中有一些数据。我可以通过运行hdfs-dfs-catTest/*很好地查看记录。现在是同一个文件，我需要在Scala中将其读取为RDD。我在scalashell中尝试了以下内容。valfile=sc.textFile("hdfs://quickstart.cloudera:8020/user/Cloudera/Test")然后我写了一些过滤器和for循环来读取单词。但是当我最后使用Println时，它说找不到文件。任何人都可以帮我知道在这种情况下HDFSurl是什么。注:我使用的是ClouderaCDH5.0VM

scala HDFS section code Cloudera hadoop bigdata

hadoop - 我们可以在 hdfs 中压缩目录吗？

我在想是否可以在hdfs上压缩一个目录，然后将其带到本地系统。有办法做到这一点吗？如有任何帮助，我们将不胜感激。谢谢。最佳答案您可以创建一个Hive表并在设置以下属性后进行插入覆盖:setmapred.output.compress=true;sethive.exec.compress.output=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.

中压 hadoop section compress hdfs

hadoop - 如何强制 CTAS 生成单个文件？

我正在使用HDP2.5和Hive服务。当我使用以下查询创建配置单元表时；createtableSample_tablerowformatdelimitedfieldsterminatedby'|'storedastextfileASselect*fromsample_table_uniquewherestate='AL';要么我可以创建具有特定位置的外部表。我的问题是，当我创建表/外部表时，存储的文件已被拆分，即。如下图所示，明智的文件已被拆分。/apps/hive/warehouse/sampledb/sample_table:00000_0,00001_0,00002_0,0000

hadoop CTAS code hive section hdfs

Bash脚本上传文件到hdfs

我正在尝试创建一个bashscript以将文件从本地边缘节点文件系统上传到hdfs。我想知道在文件中添加时间戳的好方法。在让时间戳工作时遇到一些问题。#!/bin/bashechoRunninguploadscripttohdfs...timestamp(){date+"%T"}hdfsdfs-put/home/myname/folder1/*/user/myname/example_1_$(timestamp).txthdfsdfs-put/home/myname/folder2/*/user/myname/example_2_$(timestamp).txt

Bash hdfs code section myname hadoop

shell - 检查 hdfs 中的文件大小

我可以使用以下命令检索hdfs文件的大小:hadoopfs-du-s/user/demouser/first/prod123.txt|cut-d''-f1给我的输出为82(以字节为单位)。现在我只想将这个文件与另一个文件合并，前提是它的大小小于100MB。我正在使用shell脚本将所有这些命令写入一个文件中。如何将其转换为MB，然后比较大小？有什么具体的命令吗？最佳答案只需使用:hdfsdfs-du-h/path/to/file我通过复制您的命令在我的集群上尝试了同样的操作。唯一可能的错误是您正在使用hadoopfs，只需使用h

shell hdfs section strong unix hadoop

hadoop - 远程执行 hadoop 作业时出现异常

我正在尝试在远程hadoop集群上执行Hadoop作业。下面是我的代码。Configurationconf=newConfiguration();conf.set("fs.default.name","hdfs://server:9000/");conf.set("hadoop.job.ugi","username");Jobjob=newJob(conf,"PercentilRanking");job.setJarByClass(PercentileDriver.class);job.setMapperClass(PercentileMapper.class);job.setRedu

时出 hadoop apache java mapreduce hdfs

hadoop dfs -copyFromLocal src dest

我的问题是为什么我们需要指定目标。我放到hdfs中的文件不一定完全在本地机器上，所以在命令中指定dest有什么用。当我通过命令lie运行命令然后执行hadoopdfs-ls时，我可以看到我的文件在hdfs中列出，但是当我使用以编程方式创建文件时FileSystemfs=FileSystem.get(conf);PathfilenamePath=newPath("hello.txt");fs.create(filenamePath);然后执行hadoopdfs-ls我找不到这个文件。在我的core-site.xml中，我有以下...hadoop.tmp.dir/home/apurv/ha

copyFromLocal hadoop code conf hdfs