草庐IT

hdfs_clusters

全部标签

hadoop - 如何增加 hdfs 容量

如何将hadoopDFS的配置容量从默认的50GB增加到100GB?我目前的设置是在centOS6机器上运行的hadoop1.2.1,使用了450GB中的120GB。已使用“Hadoop权威指南3'rd”建议的/conf将hadoop设置为伪分布式模式。hdfs-site.xml只有一个配置属性:dfs.replication1下面这行没有给出错误反馈...返回提示hadoopdfsadmin-setSpaceQuota100g/tmp/hadoop-myUserID如果我在再生循环中(已执行rm-rf/tmp/hadoop-myUserId试图“从头开始”)setSpaceQuota

hadoop - 如何检查HDFS上文件的格式?

给个HDFS路径,怎么判断是什么格式(文本,序列还是parquet)? 最佳答案 我认为要完成您的需求并不容易,除非您在HDFS中的所有文件都遵循一些约定,例如.txt用于文本,.seq用于序列,.parquet用于parquet文件。但是,您可以使用cat手动检查您的文件。HDFS猫:hadoopdfs-cat/path/to/file|head检查它是否是一个文本文件。Parquethead:parquet-toolshead[选项...]/path/to/file或者,编写一个程序来读取....

hadoop - spark 超时可能是由于 binaryFiles() 在 HDFS 中有超过 100 万个文件

我正在通过阅读数百万个xml文件valxmls=sc.binaryFiles(xmlDir)该操作在本地运行良好,但在yarn上运行失败:clienttoken:N/Adiagnostics:Applicationapplication_1433491939773_0012failed2timesduetoApplicationMasterforattemptappattempt_1433491939773_0012_000002timedout.Failingtheapplication.ApplicationMasterhost:N/AApplicationMasterRPCpor

hadoop - 如何在 HDFS 中只保存非空 reducer 的输出

在我的应用程序中,reducer将所有part文件保存在HDFS中,但我希望reducer只写入大小不为0bytes的part文件。请告诉我如何定义它。 最佳答案 这是可能的-请参阅“惰性输出”的文档部分:http://hadoop.apache.org/mapreduce/docs/current/mapred_tutorial.html#Lazy+Output+Creationimportorg.apache.hadoop.mapreduce.lib.output.LazyOutputFormat;LazyOutputForma

java - Hadoop datanode 启动失败 org.apache.hadoop.hdfs.server.common.Storage : Cannot lock storage

我在尝试在Hadoop中启动数据节点时遇到一些问题,从日志中我可以看到数据节点启动了两次(部分日志如下):2012-05-2216:25:00,369INFOorg.apache.hadoop.hdfs.server.datanode.DataNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingDataNodeSTARTUP_MSG:host=master/192.168.0.1STARTUP_MSG:args=[]STARTUP_MSG:ve

hadoop - 递归列出 HDFS 文件夹中按文件大小排序的文件

如果我需要递归列出HDFS文件夹中按文件大小排序的文件,有什么脚本可以引用吗?提前致谢,林 最佳答案 bin/hdfsdfs-ls-R/|sort-r-n-k5 关于hadoop-递归列出HDFS文件夹中按文件大小排序的文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/30388330/

hadoop - Spark 不利用 parquet 的 hdfs 分区

我正在使用以下命令将parquet文件写入hdfs:df.write.mode(SaveMode.Append).partitionBy(id).parquet(path)之后我正在读取和过滤这样的文件:valfile=sqlContext.read.parquet(folder)valdata=file.map(r=>Row(r.getInt(4).toString,r.getString(0),r.getInt(1),r.getLong(2),r.getString(3)))valfilteredData=data.filter(x=>x.thingId.equals("1"))f

python - 如何将二进制文件从 hdfs 读入 Spark 数据帧?

我正在尝试将一些代码从pandas移植到(py)Spark。不幸的是,我已经在输入部分失败了,我想在其中读取二进制数据并将其放入SparkDataframe。到目前为止,我正在使用来自numpy的fromfile:dt=np.dtype([('val1','但是对于Spark,我找不到如何去做。到目前为止,我的解决方法是使用csv-Files而不是二进制文件,但这不是理想的解决方案。我知道我不应该将numpy的fromfile与spark一起使用。如何读取已加载到hdfs中的二进制文件?我试过类似的东西fileRDD=sc.parallelize(['hdfs:///user/bin_

hadoop - 将文件从本地移动到 HDFS

我在本地有一个文件a.txt,我想将该文件移动到hadoop文件系统(HDFS)中,如下所示,hadoopfs-puta.txt/user/hive/warehouse/sample_db/sample_table/当文件a.txt从本地移动到Hadoop位置时,后台发生了什么? 最佳答案 在后台,源文件被分割成HDFSblock,block的大小是可配置的(一般128MB,默认64MB)。为了容错,每个block都由HDFS自动复制。默认情况下,每个block的三个副本被写入三个不同的DataNode。复制因子是用户可配置的(默认

hadoop - 附加到 HDFS 中的文件 (CDH 5.4.5)

这里是HDFS的全新内容。我有一小段代码来测试附加到文件:valpath:Path=newPath("/tmp","myFile")valconfig=newConfiguration()valfileSystem:FileSystem=FileSystem.get(config)valoutputStream=fileSystem.append(path)outputStream.writeChars("what'sup")outputStream.close()失败并显示此消息:Notsupportedjava.io.IOException:Notsupportedatorg.ap