草庐IT

hdfs_clusters

全部标签

java - HDFS 写入导致 "CreateSymbolicLink error (1314): A required privilege is not held by the client."

尝试执行来自ApacheHadoop的示例map缩减程序.运行mapreduce作业时出现以下异常。尝试了hdfsdfs-chmod777/但这并没有解决问题。15/03/1013:13:10WARNmapreduce.JobSubmitter:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.15/03/1013:13:10WARNmapreduce.JobSubmitter:Nojobjarf

hadoop - 在 HDFS 上找不到 Oozie 作业配置应用程序目录

我在我的Linux机器上安装了Cloudera的伪分布式版本,并成功运行了一些简单的MapReduce示例。然而,我正试图让Oozie工作,但在尝试执行一个简单的工作流程时收到的错误让我完全困惑:tim@phocion:~$oozieversionOozieclientbuildversion:3.1.3-cdh4.0.1根据文档将预先打包的示例复制到HDFS并执行:tim@phocion:~$ooziejob-ooziehttp://phocion:11000/oozie-config/user/tim/examples/apps/map-reduce/job.properties-

java - storm hdfs connector ...尝试使用storm将数据写入hdfs

我正在尝试使用“storm-hdfsconnector0.1.3”将数据写入HDFS。github网址:https://github.com/ptgoetz/storm-hdfs,我已将此依赖项添加到我的Maven项目中。com.github.ptgoetzstorm-hdfs0.1.3-SNAPSHOTprovided将数据写入HDFS的示例拓扑在storm-hdfs项目本身中提供。我只是修改它以匹配我的文件位置。HdfsFileTopology是:packagemy.company.app;importbacktype.storm.Config;importbacktype.sto

hadoop - 遍历 hdfs 目录

我的HDFS目录结构如下所示。/user/hive/warehouse/check.db/abcd/date=2015-02-02/xyz=hijk/000000_0/user/hive/warehouse/check.db/abcd/date=2015-02-02/xyz=pqrs/000000_0我正在尝试遍历“/user/hive/warehouse/check.db/abcd”下的所有目录并派生2个字段并使用以下代码。INPUT='/user/hive/warehouse/check.db/abcd'fordirin$(hadoopfs-ls$INPUT/*/|grep-o-e

hadoop - 仅在 Hadoop 集群中的特定节点上存储 HDFS 数据

我们有一个30节点的生产集群。我们想添加5个数据节点用于额外的存储,以处理临时的数据峰值(大约2TB)。此数据将被临时存储,我们希望在15天后删除它。是否可以确保传入的临时数据(2TB)仅存储在新添加的数据节点上?我正在寻找类似于YARN节点标签的东西。提前致谢。 最佳答案 不幸的是,我不知道在同一HDFS集群中实现此目的的简单方法。但我认为您可以通过实现自定义“block放置策略”来实现此行为。但是,执行此任务可能有些风险和复杂。这是定义/添加此功能的HDFSjira票证,允许您自定义此策略(JIRATICKET)。如果你想自定义

Hadoop FS (HDFS) 作为分布式文件存储

我正在考虑使用HDFS作为我们的客户端视频托管服务的水平扩展文件存储系统。我主要担心的是HDFS不是为此需求而开发的,这更像是“目前在需要处理大量数据的情况下使用的开源系统”。我们不想处理数据只是存储它们,在HDFS的基础上创建类似小型内部AmazonS3模拟的东西。可能重要的时刻是存储的文件大小将从100Mb到10Gb相当git。是否有人将HDFS用于此类目的? 最佳答案 如果您使用的是S3等价物,那么它应该已经提供了一个分布式、可挂载的文件系统,不是吗?也许您可以在http://openstack.org/projects/st

hadoop - HBase 独立性能与在 HDFS 集群上运行的对比

我的应用程序连接到HBase并进行大量通信(每秒数百或数千次读/写)。这会严重影响性能,可能是由于HBase对每个请求执行的I/O操作。Doo.dle是对我的代码的调用-蓝色和红色之间的区别是HBase消耗的时间。目前,我只在独立模式下进行了测试,其中HBase使用本地文件系统存储数据。我想知道,在分布式模式下使用一个实际的HDFS是否可以显着提高性能,或者只是产生相同的结果。我试图在浪费太多时间启动和运行集群之前获得线索。我问自己的第二个问题是,是否可以将独立的HBase配置为仅将数据持久保存到内存(RAM),而不是将其写入文件系统以进行性能测量。 最佳答

java - 使用 Java 将文件写入 HDFS

我正在尝试将文件写入HDFS,文件已创建,但它在集群上是空,但是当我在本地运行代码时,它就像一个魅力。这是我的代码:FSDataOutputStreamrecOutputWriter=null;FileSystemfs=null;try{//OutputWriter=newFileWriter(outputFileName,true);Configurationconfiguration=newConfiguration();fs=FileSystem.get(configuration);PathtestOutFile=newPath(outputFileName);recOutpu

hadoop - 如何在 hdfs 集群上创建符号链接(symbolic link)?

我尝试使用“createSymlink”函数在hadoop2.6.0上创建符号链接(symboliclink),但它显示“不支持符号链接(symboliclink)”!hadoophdfs不支持这个功能吗? 最佳答案 根据这个jira任务,它被禁用了https://issues.apache.org/jira/browse/HADOOP-10019 关于hadoop-如何在hdfs集群上创建符号链接(symboliclink)?,我们在StackOverflow上找到一个类似的问题:

hadoop - Flink - 方案 : hdfs 没有文件系统

我目前正在开发一个Flink1.4应用程序,它从Hadoop集群读取Avro文件。但是,在我的IDE上以本地模式运行它非常好。但是当我将它提交给JobmanagerFlink时,它总是失败并显示以下消息:java.io.IOException:ErroropeningtheInputSplithdfs://namenode/topics/CaseLocations/partition=0/CaseLocations+0+0000155791+0000255790.avro[0,16549587]:Couldnotfindafilesystemimplementationforschem