hdfs_clusters

java - HDFS 写入导致 "CreateSymbolicLink error (1314): A required privilege is not held by the client."

尝试执行来自ApacheHadoop的示例map缩减程序.运行mapreduce作业时出现以下异常。尝试了hdfsdfs-chmod777/但这并没有解决问题。15/03/1013:13:10WARNmapreduce.JobSubmitter:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.15/03/1013:13:10WARNmapreduce.JobSubmitter:Nojobjarf

hadoop - 在 HDFS 上找不到 Oozie 作业配置应用程序目录

我在我的Linux机器上安装了Cloudera的伪分布式版本，并成功运行了一些简单的MapReduce示例。然而，我正试图让Oozie工作，但在尝试执行一个简单的工作流程时收到的错误让我完全困惑:tim@phocion:~$oozieversionOozieclientbuildversion:3.1.3-cdh4.0.1根据文档将预先打包的示例复制到HDFS并执行:tim@phocion:~$ooziejob-ooziehttp://phocion:11000/oozie-config/user/tim/examples/apps/map-reduce/job.properties-

hadoop Oozie phocion map-reduce examples workflow hdfs cloudera

java - storm hdfs connector ...尝试使用storm将数据写入hdfs

我正在尝试使用“storm-hdfsconnector0.1.3”将数据写入HDFS。github网址:https://github.com/ptgoetz/storm-hdfs，我已将此依赖项添加到我的Maven项目中。com.github.ptgoetzstorm-hdfs0.1.3-SNAPSHOTprovided将数据写入HDFS的示例拓扑在storm-hdfs项目本身中提供。我只是修改它以匹配我的文件位置。HdfsFileTopology是:packagemy.company.app;importbacktype.storm.Config;importbacktype.sto

storm hdfs gt lt artifactId java maven hadoop apache-storm

hadoop - 遍历 hdfs 目录

我的HDFS目录结构如下所示。/user/hive/warehouse/check.db/abcd/date=2015-02-02/xyz=hijk/000000_0/user/hive/warehouse/check.db/abcd/date=2015-02-02/xyz=pqrs/000000_0我正在尝试遍历“/user/hive/warehouse/check.db/abcd”下的所有目录并派生2个字段并使用以下代码。INPUT='/user/hive/warehouse/check.db/abcd'fordirin$(hadoopfs-ls$INPUT/*/|grep-o-e

hadoop hdfs section warehouse check

hadoop - 仅在 Hadoop 集群中的特定节点上存储 HDFS 数据

我们有一个30节点的生产集群。我们想添加5个数据节点用于额外的存储，以处理临时的数据峰值(大约2TB)。此数据将被临时存储，我们希望在15天后删除它。是否可以确保传入的临时数据(2TB)仅存储在新添加的数据节点上？我正在寻找类似于YARN节点标签的东西。提前致谢。最佳答案不幸的是，我不知道在同一HDFS集群中实现此目的的简单方法。但我认为您可以通过实现自定义“block放置策略”来实现此行为。但是，执行此任务可能有些风险和复杂。这是定义/添加此功能的HDFSjira票证，允许您自定义此策略(JIRATICKET)。如果你想自定义

hadoop 自定 noreferrer noopener hdfs hortonworks-data-platform data-storage

Hadoop FS (HDFS) 作为分布式文件存储

我正在考虑使用HDFS作为我们的客户端视频托管服务的水平扩展文件存储系统。我主要担心的是HDFS不是为此需求而开发的，这更像是“目前在需要处理大量数据的情况下使用的开源系统”。我们不想处理数据只是存储它们，在HDFS的基础上创建类似小型内部AmazonS3模拟的东西。可能重要的时刻是存储的文件大小将从100Mb到10Gb相当git。是否有人将HDFS用于此类目的？最佳答案如果您使用的是S3等价物，那么它应该已经提供了一个分布式、可挂载的文件系统，不是吗？也许您可以在http://openstack.org/projects/st

Hadoop HDFS section 的

hadoop - HBase 独立性能与在 HDFS 集群上运行的对比

我的应用程序连接到HBase并进行大量通信(每秒数百或数千次读/写)。这会严重影响性能，可能是由于HBase对每个请求执行的I/O操作。Doo.dle是对我的代码的调用-蓝色和红色之间的区别是HBase消耗的时间。目前，我只在独立模式下进行了测试，其中HBase使用本地文件系统存储数据。我想知道，在分布式模式下使用一个实际的HDFS是否可以显着提高性能，或者只是产生相同的结果。我试图在浪费太多时间启动和运行集群之前获得线索。我问自己的第二个问题是，是否可以将独立的HBase配置为仅将数据持久保存到内存(RAM)，而不是将其写入文件系统以进行性能测量。最佳答

hadoop HBase section HDFS

java - 使用 Java 将文件写入 HDFS

我正在尝试将文件写入HDFS，文件已创建，但它在集群上是空，但是当我在本地运行代码时，它就像一个魅力。这是我的代码:FSDataOutputStreamrecOutputWriter=null;FileSystemfs=null;try{//OutputWriter=newFileWriter(outputFileName,true);Configurationconfiguration=newConfiguration();fs=FileSystem.get(configuration);PathtestOutFile=newPath(outputFileName);recOutpu

java recOutputWriter section outputFileName hadoop apache-spark

hadoop - 如何在 hdfs 集群上创建符号链接(symbolic link)？

我尝试使用“createSymlink”函数在hadoop2.6.0上创建符号链接(symboliclink)，但它显示“不支持符号链接(symboliclink)”!hadoophdfs不支持这个功能吗？最佳答案根据这个jira任务，它被禁用了https://issues.apache.org/jira/browse/HADOOP-10019 关于hadoop-如何在hdfs集群上创建符号链接(symboliclink)？，我们在StackOverflow上找到一个类似的问题：

何在 symbolic section https hadoop hdfs symlink

hadoop - Flink - 方案 : hdfs 没有文件系统

我目前正在开发一个Flink1.4应用程序，它从Hadoop集群读取Avro文件。但是，在我的IDE上以本地模式运行它非常好。但是当我将它提交给JobmanagerFlink时，它总是失败并显示以下消息:java.io.IOException:ErroropeningtheInputSplithdfs://namenode/topics/CaseLocations/partition=0/CaseLocations+0+0000155791+0000255790.avro[0,16549587]:Couldnotfindafilesystemimplementationforschem

hadoop Flink apache 34 hdfs apache-flink avro

223 224 225226227 228 229