hdfs_clusters

java - 尝试模拟用户访问 HDFS 时出错

我正在尝试代表另一个用户访问HDFS。我正在尝试使用以下应用程序importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.security.UserGroupInformation;importorg.apache.log4j.Logger;importorg.apache.hadoop.fs.FSDataOutputStream;importjava.security.P

时出 java hadoop apache hdfs kerberos impersonation

hadoop - 不同磁盘大小节点的HDFS数据写入流程

我们有10个节点的HDFS(Hadoop-2.6，cloudera-5.8)集群，其中4个节点的磁盘大小为10TB，6个节点的磁盘大小为3TB。在这种情况下，磁盘在小型磁盘节点上不断变满，但磁盘在大型磁盘节点上可用。我试图理解名称节点如何将数据/block写入不同磁盘大小的节点。无论是均分还是写入了一定比例的数据。最佳答案您应该查看dfs.datanode.fsdataset.volume.choosing.policy。默认情况下，这设置为round-robin但由于您有一个非对称磁盘设置，您应该将其更改为availables

盘大小节 section code hadoop hdfs cloudera

hadoop - 在 Java 中从 HDFS 中删除以特定名称开头的目录

我正在尝试使用以下代码从spark中删除配置单元阶段文件。此代码可以删除目录中的文件，但我想删除所有以“.hive-staging_hive”开头的文件。请问如何删除以某段文字开头的目录Configurationconf=newConfiguration();System.out.println("560");Pathoutput=newPath("hdfs://abcd/apps/hive/warehouse/mytest.db/cdri/.hive-staging_hive_2017-06-08_20-45-20_776_7391890064363958834-1/");FileS

除以定名 hive hive-staging_hive section hadoop apache-spark hdfs

hadoop - 如何将 HDFS 中数据的默认位置更改为某个永久位置？

我在伪分布式单节点集群中运行Hadoop，我在将数据的默认位置从/var/lib/hadoop-0.20/cache/hadoop/dfs/data更改为某个永久位置时遇到问题每次重新启动时都不会被清除。我是Hadoop生态系统的新手。我们将不胜感激任何帮助。谢谢:) 最佳答案在hdfs-site.xml中设置dfs.data.dir应该会有帮助。默认设置为${hadoop.tmp.dir}/dfs/data，这就是为什么/var/lib/hadoop-0.20/cache/hadoop/dfs/data在你的情况下。您可以在hd

hadoop HDFS code section

hadoop - 将数据从自定义格式上传到 HDFS 集群

我有几台机器有TB的自定义格式的日志数据，可以用c++库读取。我想将所有数据上传到hadoop集群(HDFS)，同时将其转换为parquet文件。这是一个持续的过程(意味着我每天都会获得更多数据)而不是一次性的努力。什么是性能明智(高效地执行)的最佳替代方案？parquetC++库和Java库一样好吗？(更新、错误等)该解决方案应该每天处理数十TB，将来甚至更多。日志数据持续到达并且应该立即在HDFS集群上可用。最佳答案性能方面，您最好的方法是分批收集数据，然后每批写出一个新的Parquet文件。如果你的数据是单行接收的，并且你

自定传到 parquet section parquet-cpp hadoop hdfs

hadoop - 使 HDFS 计算本地文件的校验和。

我正在尝试使用hadoopfs-checksum计算本地文件校验和。但它只返回无。[centos@sandboxtmp]$hadoopfs-checksumfile:///user/centos//a.jsonfile:///user/centos/a.json无我试过用hadoopfs-copyFromLocala.jsonfile:///user/centos/a.json这样在本地文件夹/user/centos生成一个.a.json.crc文件。但是结果校验和仍然没有返回。Hadoop如何在本地计算校验和？最佳答案 hado

hadoop HDFS code section checksum

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里？

我正在使用SparkDataframeAPI从NFS共享加载/读取文件，然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器，因此两个工作节点是YARNNodeManager节点，主节点是YarnResourceManager节点。我有一个远程位置，比如/data/files，它安装到所有三个YARN/SPARK节点，因为它是[/data/files]，其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg

sqlContext Cluster String 34 fileFormat hadoop apache-spark apache-spark-sql spark-dataframe hadoop2

linux - Hadoop - 列出 HDFS 目录中的所有子目录并将每个目录路径保存到 bash 变量中

假设我有一个名为myDirectory的HDFS目录，其中包含可变数量的子目录，如下所示:/tmp|___mainDirectory|___subDirectory1|___subDirectory2..|___subDirectoryN如何将主目录中每个子目录的路径捕获为bash变量？例如，在上述情况下，我最终会得到N个bash变量，其中每个变量看起来像这样:var_1=/tmp/mainDirectory/subDirectory1var_2=/tmp/mainDirectory/subDirectory2..etc到目前为止，在执行hadoopfs-ls/tmp/mainDire

子目并将 mainDirectory subDirectory code linux bash hadoop awk hdfs

python - 从 REST API 获取数据并将其存储在 HDFS/HBase 中

我是大数据的新手。我了解到HDFS更多的是存储结构化数据，HBase更多的是存储非结构化数据。我有一个RESTAPI，我需要在其中获取数据并将其加载到数据仓库(HDFS/HBase)中。数据为JSON格式。那么将数据加载到哪个更好呢？HDFS还是HBase？你也可以请你指导我一些教程来做到这一点。我遇到了关于TutorialwithStreamingData的问题.但我不确定这是否适合我的用例。如果你能指导我使用特定的资源/技术来解决这个问题，那将是非常有帮助的。最佳答案有几个问题你要思考您想使用批处理文件还是流媒体？这取决于请

并将 python strong section 大数 scala rest hadoop hdfs

hadoop - oozie中执行 Action 后删除hdfs路径

执行类似于在操作前删除的prepare标记的操作后，如何删除hdfs路径。...[JOB-TRACKER][NAME-NODE]......[JOB-XML-FILE][PROPERTY-NAME][PROPERTY-VALUE]...[PIG-SCRIPT][PARAM-VALUE]...[PARAM-VALUE][ARGUMENT-VALUE]...[ARGUMENT-VALUE][FILE-PATH]...[FILE-PATH]...... 最佳答案 pig行动中没有等价物。你基本上有两个选择:在您的pig脚本中添加删除命令添

hadoop Action gt lt section oozie oozie-coordinator oozie-workflow

170 171 172173174 175 176