hdfs_clusters_草庐IT

hadoop - 统计hdfs中压缩文件的个数

我正在尝试计算Hdfs文件夹中压缩的文件。我正在使用hdfsdfs-count/user/data|grep.snappy——什么都不显示grep.snappy|hdfsdfs-count/user/data--它显示所有文件(即使不是.snappy)我能得到正确的命令来计算这个/user/datahdfs路径中的.snappy文件吗最佳答案 hdfsdfs-count命令提供以下信息:目录数文件数内容大小文件名例如，我在/tmp/文件夹中得到以下输出:CMD>hdfsdfs-count/tmp/1433193414280395/

中压 hadoop code snappy section count grep hdfs bigdata

hadoop - 无法将文件从 HDFS 复制到本地 FS 上的挂载设备

我们在客户端机器上安装了一个设备，Windows和Unix环境(客户端机器)都可以将其作为根文件夹(/nas_store)访问。我们能够对我们的本地主目录(如/home/abhinay/)执行-get或-copyToLocal，但无法复制到/nas_store，出现错误get:Operationnotpermitted任何人都可以建议，必须在hadoop配置文件中进行任何更改吗？最佳答案有点乱，但在这里:hdfsdfs-cat/folder_path/*|cat>/nas_store/file

hadoop HDFS section strong nas_store mounted-volumes

scala - Spark SBT 程序尝试从本地文件系统而不是 IntelliJ 项目中的 hdfs 读取

我安装了Hadoop(hadoop-2.7.2.tar.gz)和Spark(spark-1.6.0-bin-without-hadoop.tgz)。两者均已正确配置以协同工作。我能够遵循this的scala版本动手教程，以读取存储在hdfs上的文件并应用ALS算法提供建议。但是现在当我尝试在IntelliJIDE中做同样的事情时，我得到了这个错误:Exceptioninthread"main"org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/data/movielens/medium我想

IntelliJ scala movieLensHomeDir section code hadoop intellij-idea apache-spark

hadoop - HDFS 中的故障类型有哪些？

HDFS中的故障类型有哪些？当NameNode、SecondaryNameNode和DataNode销毁时，会发生什么？最佳答案故障主要有NameNode故障、DataNode故障和网络分区三种。NameNodefailuresDataNodeSecondaryNode对于所有失败的情况，请尝试sudojps。您将获得进程ID和进程名称。然后执行sudokill-9{process-id}。然后尝试在hdfs或pig/hiveshell中读取/写入数据。关于hadoop-HDFS中

hadoop HDFS section noreferrer hadoop2

azure - 如何确定 hdfs(Azure blob 存储)上文件的文件编码？

我在具有混合文件编码的hdfs上有一堆100GB的文件(不幸的是在Azureblob存储中)。如何确定每个文件的文件编码？一些dfs命令行命令将是理想的。谢谢。最佳答案我最终通过将blob存储中的每个文件的开头传送到本地缓冲区，然后应用fileunix实用程序，获得了我需要的结果。以下是针对单个文件的命令:hdfsdfs-catwasb://container@account.blob.core.windows.net/path/to/file|head-n10>buffer;file-ibuffer这会让你得到类似的东西:bu

上文 azure section code blob hadoop hdfs azure-blob-storage file-encodings

Python HDFS 给出了不正确的文件大小

我正在尝试使用python3.5和hdfs库从hdfs获取文件的大小。https://pypi.python.org/pypi/hdfs/fromhdfs.clientimportClientif__name__=='__main__':cl=Client("http://hostName:50070")print(cl.content("/path/to/file/fileName.txt",False))我明白了{'spaceQuota':-1,'directoryCount':0,'spaceConsumed':103566,'length':34522,'quota':-1,'

不正 Python section code 39 hadoop hdfs python-3.5 webhdfs

hadoop - spark 是否有可能同时读取 HDFS 数据和进行一些计算？

例如，我在Spark平台上运行了以下工作计数应用程序:valtextFile=sc.textFile("hdfs://...")valcounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.saveAsTextFile("hdfs://...")假设有一个worker需要处理1Gb数据，那么这个worker是否有可能在获取所有1Gb数据之前开始做一些计算(比如flatMap)？最佳答案一般来说，是的，但是您的

hadoop spark section the blockquote apache-spark hdfs

hadoop - 为什么HDFS中的 block 大小在所有DataNode中都一致？

继续提问:datablocksizeinHDFS,why64MB?我知道在分发中的所有数据节点中，HDFS中的块大小为一致/相同(大小取决于配置)。我的问题是:为什么此块大小在所有NameNode中保持一致？我问这个问题是因为，我有10个高端处理机作为DataNode，还有20个低端硬件。如果我们在这10台计算机的HDFS中保留更高块的块，它可以更快地处理吗？另外，NameNode具有元数据以标识DataNode中的块，因此机器之间块大小不一致的问题是什么？最佳答案 letsayIhave10higherendprocessing

DataNode hadoop strong 的偏斜 hdfs hadoop2

postgresql - 如何将 Postgres(二进制或文本)转储文件导入 Spark 或 HDFS？

我想在Spark中使用Postgres(二进制或文本)转储文件，想知道如何导入它？我知道我们可以使用Sqoop将Postgres导入HDFS，并且我可以从Spark访问HDFS，但是如果我只有转储文件怎么办？我是否必须先将其恢复到Postgres数据库中？我宁愿不要。最佳答案使用pg_restore--data-only-tmy_tabledb.dump你应该得到制表符分隔的文本，其中包含一些注释和一些额外的命令，过滤掉你不需要的一切会很简单'不想将该文件写入HDFS。然后就是将该文件作为CSV文件从Spark或MapReduc

postgresql Postgres section 该文 hadoop apache-spark hdfs sqoop

hadoop - 错误 org.apache.hadoop.hdfs.server.datanode.DataNode : RECEIVED SIGNAL 15: SIGTERM

在我的主节点中运行Hive查询时，我遇到了一些严重的问题。我有3个集群设置(1个名称节点，2个数据节点)。版本:Hadoop:2.7.3hive:2.1.0Java:openjdk版本“1.8.0_111”操作系统:ubuntu16.04.1环境:亚马逊EC2我已经在主节点中安装了Hive，并使用start-dfs.sh和start-yarn.sh从主节点启动了所有守护进程。我检查了主节点和从节点中的所有守护进程，都运行良好。当我连接到Hive并运行示例查询时，主节点中的所有守护进程都停止运行，但数据节点中的守护进程仍在运行。请从hadoop-hduser-datanode-namen

hadoop DataNode 1479972457866 hive