hdfs_clusters

hadoop - 如何增加 hdfs 容量

如何将hadoopDFS的配置容量从默认的50GB增加到100GB？我目前的设置是在centOS6机器上运行的hadoop1.2.1，使用了450GB中的120GB。已使用“Hadoop权威指南3'rd”建议的/conf将hadoop设置为伪分布式模式。hdfs-site.xml只有一个配置属性:dfs.replication1下面这行没有给出错误反馈...返回提示hadoopdfsadmin-setSpaceQuota100g/tmp/hadoop-myUserID如果我在再生循环中(已执行rm-rf/tmp/hadoop-myUserId试图“从头开始”)setSpaceQuota

hadoop - 如何检查HDFS上文件的格式？

给个HDFS路径，怎么判断是什么格式(文本，序列还是parquet)？最佳答案我认为要完成您的需求并不容易，除非您在HDFS中的所有文件都遵循一些约定，例如.txt用于文本，.seq用于序列，.parquet用于parquet文件。但是，您可以使用cat手动检查您的文件。HDFS猫:hadoopdfs-cat/path/to/file|head检查它是否是一个文本文件。Parquethead:parquet-toolshead[选项...]/path/to/file或者，编写一个程序来读取....

上文 hadoop section code parquet hdfs

hadoop - spark 超时可能是由于 binaryFiles() 在 HDFS 中有超过 100 万个文件

我正在通过阅读数百万个xml文件valxmls=sc.binaryFiles(xmlDir)该操作在本地运行良好，但在yarn上运行失败:clienttoken:N/Adiagnostics:Applicationapplication_1433491939773_0012failed2timesduetoApplicationMasterforattemptappattempt_1433491939773_0012_000002timedout.Failingtheapplication.ApplicationMasterhost:N/AApplicationMasterRPCpor

binaryFiles 是由 scala spark SparkSubmit hadoop apache-spark

hadoop - 如何在 HDFS 中只保存非空 reducer 的输出

在我的应用程序中，reducer将所有part文件保存在HDFS中，但我希望reducer只写入大小不为0bytes的part文件。请告诉我如何定义它。最佳答案这是可能的-请参阅“惰性输出”的文档部分:http://hadoop.apache.org/mapreduce/docs/current/mapred_tutorial.html#Lazy+Output+Creationimportorg.apache.hadoop.mapreduce.lib.output.LazyOutputFormat;LazyOutputForma

何在 reducer section hadoop mapreduce reduce hdfs

java - Hadoop datanode 启动失败 org.apache.hadoop.hdfs.server.common.Storage : Cannot lock storage

我在尝试在Hadoop中启动数据节点时遇到一些问题，从日志中我可以看到数据节点启动了两次(部分日志如下):2012-05-2216:25:00,369INFOorg.apache.hadoop.hdfs.server.datanode.DataNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingDataNodeSTARTUP_MSG:host=master/192.168.0.1STARTUP_MSG:args=[]STARTUP_MSG:ve

datanode Storage hadoop apache java locking hdfs ubuntu-12.04

hadoop - 递归列出 HDFS 文件夹中按文件大小排序的文件

如果我需要递归列出HDFS文件夹中按文件大小排序的文件，有什么脚本可以引用吗？提前致谢，林最佳答案 bin/hdfsdfs-ls-R/|sort-r-n-k5 关于hadoop-递归列出HDFS文件夹中按文件大小排序的文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/30388330/

hadoop HDFS section stackoverflow questions

hadoop - Spark 不利用 parquet 的 hdfs 分区

我正在使用以下命令将parquet文件写入hdfs:df.write.mode(SaveMode.Append).partitionBy(id).parquet(path)之后我正在读取和过滤这样的文件:valfile=sqlContext.read.parquet(folder)valdata=file.map(r=>Row(r.getInt(4).toString,r.getString(0),r.getInt(1),r.getLong(2),r.getString(3)))valfilteredData=data.filter(x=>x.thingId.equals("1"))f

不利 parquet code ParquetRelation hadoop apache-spark hdfs bigdata

python - 如何将二进制文件从 hdfs 读入 Spark 数据帧？

我正在尝试将一些代码从pandas移植到(py)Spark。不幸的是，我已经在输入部分失败了，我想在其中读取二进制数据并将其放入SparkDataframe。到目前为止，我正在使用来自numpy的fromfile:dt=np.dtype([('val1','但是对于Spark，我找不到如何去做。到目前为止，我的解决方法是使用csv-Files而不是二进制文件，但这不是理想的解决方案。我知道我不应该将numpy的fromfile与spark一起使用。如何读取已加载到hdfs中的二进制文件？我试过类似的东西fileRDD=sc.parallelize(['hdfs:///user/bin_

读入 python 39 code section hadoop numpy apache-spark spark-dataframe

hadoop - 将文件从本地移动到 HDFS

我在本地有一个文件a.txt，我想将该文件移动到hadoop文件系统(HDFS)中，如下所示，hadoopfs-puta.txt/user/hive/warehouse/sample_db/sample_table/当文件a.txt从本地移动到Hadoop位置时，后台发生了什么？最佳答案在后台，源文件被分割成HDFSblock，block的大小是可配置的(一般128MB，默认64MB)。为了容错，每个block都由HDFS自动复制。默认情况下，每个block的三个副本被写入三个不同的DataNode。复制因子是用户可配置的(默认

hadoop HDFS DataNode block section

hadoop - 附加到 HDFS 中的文件 (CDH 5.4.5)

这里是HDFS的全新内容。我有一小段代码来测试附加到文件:valpath:Path=newPath("/tmp","myFile")valconfig=newConfiguration()valfileSystem:FileSystem=FileSystem.get(config)valoutputStream=fileSystem.append(path)outputStream.writeChars("what'sup")outputStream.close()失败并显示此消息:Notsupportedjava.io.IOException:Notsupportedatorg.ap

hadoop HDFS section ChecksumFileSystem FileSystem cloudera-cdh

221 222 223224225 226 227