hdfs

hadoop - Systemd Hdfs 服务 [hadoop] - 启动

我已经创建了一个服务来启动和停止与我的spark集群关联的我的hdfs。服务:[Unit]Description=Hdfsservice[Service]Type=simpleWorkingDirectory=/home/hduserExecStart=/opt/hadoop-2.6.4/sbin/start-service-hdfs.shExecStop=/opt/hadoop-2.6.4/sbin/stop-service-hdfs.sh[Install]WantedBy=multi-user.target问题是当我启动服务时，它会在启动后立即启动和停止!!:)我认为问题是服务的类

hadoop - 使用 Nifi 将数据提取到 HDFS - 无法访问文件

所以，我是第一次使用NiFi。我正在尝试使用它来调用API，然后将数据通过管道传输到HDFS(HortonworksSandbox2.4)。我目前只使用2个处理器:GetHTTP和PutHDFS。我似乎两个处理器都配置正常...它们运行，但我无法找到当我通过Ambari进入Hadoop时创建的输出文件...我已将输出目录设置为/user/，但什么也没有出现。但是，我在PutHDFS处理器上收到一条警告消息，建议:WARNINGPutHDFS[...]penalizingStandardFlowFileRecord[...]androutingtofailurebecausefilewi

hadoop Nifi apache docs apache-nifi hortonworks-sandbox

java - hadoop mapreduce : where's the final hdfs result file when I speficify multiple reducers?

我有一个wordCount.java程序并修改它以支持多个映射器和缩减器，如下所示:publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]args)throwsException{JobConfconf=newJobConf(getConf(),w1_args.class);for(inti=0;i然后我编译并运行它:hadoopjarWordCount-1.0-SNAPSHOT.jarWordCount-m3-r15inputoutput它运行良好，当我检查输出目录时:$hdfsdfs-lso

mapreduce speficify output part section java hadoop hdfs

hadoop - 如何跟踪 NiFi 中的 HDFS Active Namenode 更改事件？

我有HDFS集群，其中包含Active和StanbyNamenodes。有时，当集群重新启动时，Namenode会交换它们的角色-Standby变为Active，反之亦然。然后我让NiFi流和PutParquet处理器将一些文件写入这个HDFS集群。处理器的目录属性配置为“hdfs://${namenode}/some/path”，其中${namenode}变量值类似于“first.namenode.host.com:8020”。现在，当集群重新启动并且实际的Namenode更改为“second.namenode.host.com:8020”时，NiFi中的配置没有更新，处理器仍然尝试

Namenode hadoop section HDFS apache-nifi

hadoop - 使用 Nifi 将文件从 SFTP 服务器复制到 HDFS

我正在尝试从SFTP服务器加载包含225GB(文件数量约为1,75,000)的庞大数据，并将数据复制到HDFS。为了实现上述场景，我们使用了2个处理器。GetSFTP(从SFTP服务器获取文件)已配置处理器->递归搜索=true;使用自然排序=true；远程轮询批量大小=5000；并发任务=32.PutHDFS(将数据推送到HDFS)已配置的处理器->并发任务=3；冲突解决策略=replace;Hadoop配置资源；目录但是一段时间后，数据复制停止并且它的大小在HDFS中没有更新。当我在GetSFTP中将RemotePollBatchSize配置设置为5000->推送到HDFS的总数据

hadoop Nifi section strong HDFS apache-nifi hortonworks-sandbox

apache-spark - 如何将托管在 HDFS 中的配置文件传递给 Spark 应用程序？

我正在使用SparkStructuredStreaming。另外，我正在使用Scala。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如;spark_job.conf(HOCON)spark{appName:"",master:"",shuffle.size:4etc..}kafkaSource{servers:"",topic:"",etc..}redisSink{host:"",port:999,timeout:2000,checkpointLocation:"hdfslocation",etc..}如何将它传递给Spark应用程序？我如何在Spark中

apache-spark 传递 code section 34 hadoop configuration apache-spark-sql spark-structured-streaming

docker - Hue 访问 HDFS : bypass default hue. ini？

设置我正在尝试使用bde2020提供的图像组成一个轻量级的最小hadoop堆栈。(学习目的)。现在，堆栈包括(除其他外)一个名称节点数据说明色调基本上，我是从欧洲大数据开始的officialdockercompose,并添加了一个基于theirdocumentation的色调图像问题Hue的文件浏览器无法访问HDFS:Cannotaccess:/user/dav.TheHDFSRESTserviceisnotavailable.Note:youareaHueadminbutnotaHDFSsuperuser,"hdfs"orpartofHDFSsupergroup,"supergrou

default docker hadoop namenode code docker-compose hdfs hue

hadoop - 无法将现有文件附加到 HDFS

我在VM上运行单节点Hadoop1.2.1集群。我的hdfs-site.xml如下所示:dfs.replication1Defaultblockreplication.dfs.support.appendtrueDoesHDFSallowappendstofiles?现在，当我尝试从Eclipse运行以下代码时，它始终返回false:Configurationconfig=newConfiguration();config.set("mapred.job.tracker","10.0.0.6:54311");config.set("fs.default.name","hdfs://10

hadoop HDFS java apache bigdata

hadoop 权限问题 (hdfs-site.xml dfs.permissions.enabled)

我最近在我的机器上安装了Hadoop。我有权限问题。我以用户rahul身份登录并尝试在HDFS中创建目录(hdfsdfs-mkdir/rahul_workspace)。但它给了我一个错误Permissiondenied:user=Rahul,access=WRITE,inode="/user":hdfs:hdfs:drwxr-xr-x。在Google上快速搜索此错误会导致许多响应建议通过将hdfs-site.xml中的dfs.permissions属性设置为false来禁用权限检查的解决方法。现在我可以在HDFS中创建目录。将上述属性设置为false后，我可以访问所有其他hadoop服

permissions hdfs-site section code hadoop hive hdfs cloudera

hadoop - Hdfs 可以有不同的复制策略吗

我可以在HDFS的不同文件夹中使用不同的复制策略吗？例如，我想复制的文件夹/important_data中的文件是3，但我只想复制的文件夹/normal_data中的文件是1。谢谢! 最佳答案你可以使用setrep来设置复制hadoopfs–setrep–w3-R/my/dir1hadoopfs–setrep–w1-R/my/dir2您也在文件上设置自定义复制。hadoopfs–setrep–w3/my/file这是文档http://hadoop.apache.org/docs/current/hadoop-project-dis

hadoop Hdfs section setrep

172 173 174175176 177 178