草庐IT

hdfs_rtp

全部标签

shell - 通过使用 shell 脚本过滤修改日期,将文件从 hdfs 文件夹复制到另一个 hdfs 位置

我的hdfs位置有1年的数据,我想将过去6个月的数据复制到另一个hdfs位置。是否可以直接从hdfs命令复制6个月的数据,或者我们是否需要编写shell脚本来复制最近6个月的数据?我已尝试使用hdfs命令来执行此操作,但没有成功。我尝试使用下面的shell脚本,它在创建TempFile但抛出错误之前工作正常$shscriptnew.shscriptnew.sh:line8:syntaxerror:unexpectedendoffile并且脚本不会进一步执行。下面是我使用的shell脚本。#!/bin/bashhdfsdfs-ls/hive/warehouse/data.db/all_h

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流,我将修改后的文件上传到hdfs,然后使用generateflowfile,我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好,但我只想在“hdfs/path”指定的路径中有文件时这样做,因为当命令loadinpath执行时,hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案 使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等),Direc

hadoop - HDFS 无法使用 Hadoop 3.2 启动 : bash v3. 需要 2+

我正在构建一个由2个节点组成的小型Hadoop集群:1个主节点+1个工作节点。我使用的是最新版本的Hadoop(3.2),所有操作均由root用户执行。在安装过程中,我已经能够hdfsnamenode-format。下一步是使用start-dfs.sh启动HDFS守护进程。$start-dfs.shStartingnamenodeson[master]bashv3.2+isrequired.Sorry.Startingdatanodesbashv3.2+isrequired.Sorry.Startingsecondarynamenodes[master]bashv3.2+isrequi

hudson - 如何在安装 hudson 的 hadoop 插件后对 hdfs 设置访问控制

我安装了启用hadoop的hudson插件。现在我发现我自己没有权限将任何数据放在那里。hudson如何配置hadoop对我来说一点也不明显。谁能告诉我如何更改这些权限? 最佳答案 hadoop的hudson配置可以在$HUDSON_HOME/hadoop/dist/confhadoop的配置详情(将页面向下移至配置文件部分)。 关于hudson-如何在安装hudson的hadoop插件后对hdfs设置访问控制,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

所以我的MRJob生成了一个报告文件,最终用户需要能够下载该文件,最终用户需要在普通Web报告界面上单击一个按钮,并让它下载输出。根据thisO'Reillybookexcerpt,有一个HTTP只读接口(interface)。它说它是基于XML的,但它似乎只是旨在通过Web浏览器查看的普通Web界面,而不是可以通过编程方式查询、列出和下载的东西。编写自己的基于servlet的接口(interface)是我唯一的办法吗?或者执行hadoopcli工具? 最佳答案 从Java以外的东西以编程方式访问HDFS的方法是使用Trift。HD

performance - 从数据库中导出数据并写入HDFS(hadoop fs)

现在我正在尝试从数据库表中导出数据,并将其写入hdfs。问题是:名称节点会成为瓶颈吗?机制如何,名称节点会缓存一个切片(64MB),然后将其提供给数据节点?有没有比编写hdfs更好的方法?因为我认为它没有利用并行机制。谢谢:) 最佳答案 您是否考虑过使用Sqoop。Sqoop可用于从任何支持JDBC的数据库中提取数据并将其放入HDFS。http://www.cloudera.com/blog/2009/06/introducing-sqoop/Sqoopimport命令获取要运行的map作业的数量(默认为1)。此外,在并行化工作(映

java - 关于在 hdfs 中传输文件

我需要用java代码将文件从一个hdfs文件夹传输到另一个hdfs文件夹。请问有没有可以调用的api在hdfs路径间传输文件?我还想问一下,有没有从java代码中调用mapreduce作业的方法?当然,这个java不是在hdfs中运行的。非常感谢,祝周末愉快! 最佳答案 MayIaskisthereapithatwecancalltotransferfilesamonghdfspaths?使用o.a.h.hdfs.DistributedFileSystem#rename方法将文件从HDFS中的一个文件夹移动到另一个文件夹。该函数已重

hadoop - HDFS 中的数据完整性 : Which Data Node(s) verifies the checksum?

根据Hadoop:TheDefinitiveGuide,SecondEditionA.Datanodesareresponsibleforverifyingthedatatheyreceivebeforestoringthedataanditschecksum.他们是否通过验证校验和来验证数据?B.Aclientwritingdatasendsittoapipelineofdatanodes(asexplainedinChapter3),andthelastdatanodeinthepipelineverifiesthechecksum.那么,这是否意味着每个数据节点都验证校验和(如A

hadoop - 停止所有 Hadoop 守护程序并再次重新启动后,无法访问在 HDFS 中创建的目录

我是Hadoop的新手,我有几个问题,但我找不到任何解决方案,我的问题如下:**CreatedadirectoryonHDFSusingbelowcommand:--bin/hadoopfs-mkdir/user/abhijit/apple_poc**Checkingifmydirectoryhasbeencreated:--bin/hadoopfs-ls--(output)-->drwxr-xr-x-abhijitsupergroup02013-07-1111:09/user/abhijit/apple_poc**Stoppingallhadoopdaemons:--bin/stop

hadoop - Flume 和 HDFS 集成,HDFS IO 错误

我正在尝试将FLUME与HDFS集成,我的FLUME配置文件是hdfs-agent.sources=netcat-collecthdfs-agent.sinks=hdfs-writehdfs-agent.channels=memoryChannelhdfs-agent.sources.netcat-collect.type=netcathdfs-agent.sources.netcat-collect.bind=localhosthdfs-agent.sources.netcat-collect.port=11111hdfs-agent.sinks.hdfs-write.type=FI