草庐IT

hdfs-audit

全部标签

hadoop - 使用水槽将文件从假脱机目录移动到 HDFS

我正在为我公司的POC实现一个小型hadoop集群。我正在尝试使用Flume将文件导入HDFS。每个文件都包含这样的JSON对象(每个文件1个“长”行):{"objectType":[{JSONObject},{JSONObject},...]}“objectType”是数组中对象的类型(例如:事件、用户...)。这些文件稍后将根据“objectType”由多个任务处理。我正在使用spoolDir源和HDFS接收器。我的问题是:是否可以在flume写入HDFS时保留源文件名(文件名是唯一的,因为它们的名称中包含时间戳和UUID)有没有办法将“deserializer.maxLineLe

hadoop - 将一个本地文件放入多个HDFS目录

我正在为CDH5.3集群安装编写完整性测试。我们有一个测试用例,将在具有1000个分区的目录上创建一个Hive表,然后查询随机分区。本来是用一系列for循环做的,搞了好几个小时:hadoopfs-mkdir-p/hdfs/directory/partition{1...1000}然后:hadoopfs-put/path/to/local/file/hdfs/directory/partitionX将一个本地文件传递到多个目录只会引发错误,但使用for循环需要数小时才能完成。-copyFromLocal抛出与-put类似的错误。此外,-put到第一个目录并使用for循环复制也需要相当多的

hadoop - 使用 distcp 安全地将数据从 HDFS 传输到 amazon S3

我们想将ClouderaHadoop集群中的HDFS数据备份到AmazonS3。看起来我们可以为此使用distcp但不清楚的是数据是否通过加密传输复制到S3。是否需要配置一些东西才能启用此功能? 最佳答案 我认为S3客户端加密在Hadoop中还不可用。好像S3serversideencryption(在S3端加密静态数据)可从Hadoop2.5.0进行配置。要启用它,请在core-site.xml中添加以下属性:fs.s3n.server-side-encryption-algorithmAES256Specifyaserver-s

hadoop - 在 Hadoop 2.6.9 中将文件从 HDFS 传输到本地文件系统的 Shell 命令

我是Hadoop新手。是否有bash命令可以将文件从Hadoop分布式文件系统传输到hadoop节点上的标准文件系统。我正在使用Hadoop2.6.0我看到另一个类似的问题,询问如何在Java中做同样的事情:CopyingfilesfromHDFStolocalfilesystemwithJAVA我们可以用一个简单的shell命令来代替吗(它在属于hadoop集群的节点上运行)? 最佳答案 hdfsdfs-get/hdfs/path/local/pathhdfsdfs-put/local/path/hdfs/path

java - 我正在尝试通过 java 编程将 Sqoop 从 oracle 导入到 hdfs

我正在使用ssh来执行Sqoop命令。这是我的代码的引用HowtouseSqoopinJavaProgram?但我收到“找不到sqoop命令”的错误。这是代码packagesqoop;importnet.neoremind.sshxcute.core.Result;importnet.neoremind.sshxcute.core.SSHExec;importnet.neoremind.sshxcute.core.ConnBean;importnet.neoremind.sshxcute.task.CustomTask;importnet.neoremind.sshxcute.task

hadoop - 如果输入文件有任何变化,Flume 将日志写入 hdfs

我是ApacheFlume的新手,我有一个用例,其中有一个定期更新的输入文件“sample.txt”,它最初包含以下数据NameAgeSexAddressxxx20MChennai有时它会更新为NameAgeSexAddressYYY25FSalemZZZ18MCovai每当输入文件发生变化时,我希望使用Apacheflume将该文件写入hdfs。任何人都可以建议我链接或者任何人都可以告诉我如何实现这一目标 最佳答案 您可以将flumetail视为来源。我正在指向一些url。请引用它们。http://www.rittmanmead.

hadoop - 将文件从远程 Unix 和 Windows 服务器复制到 HDFS,无需中间暂存

如何在不从命令行进行中间暂存的情况下将文件从远程Unix和Windows服务器复制到HDFS? 最佳答案 您可以使用以下命令:hadoopfs-cp/user/myuser/copyTestFolder/*hdfs://remoteServer:8020/user/remoteuser/copyTestFolder/反之亦然,从服务器复制到本地机器。您还可以阅读hadoopdocumentation. 关于hadoop-将文件从远程Unix和Windows服务器复制到HDFS,无需中间暂

sql - 在 hdfs 中存储关系数据的最佳方式

最近我阅读了很多关于hadoop的文章,我可以说我理解它的一般概念,但仍然(至少)有一block拼图我无法理解。在hdfs中存储关系数据的最佳方式是什么。首先,我知道hadoop的存在无法替代为我的应用程序提供服务的传统好旧sql数据库。我在这里面临的问题是我想使用hadoop将来自多个系统的数据聚合到hdfs中。然后我可以将来自多个系统的数据交叉引用在一起,然后生成我的报告工具等使用的新数据集。好吧,那么,我应该使用一个表将表数据导入一个文件,还是应该导入连接表的查询结果。例如:SQLtables:Person:PersonIDNameBirthdaySexCompany:Compa

hadoop - 如何将图像文件从 HDFS 目录移动到 HBase?

我有ClouderaCDH5.3.0我在HDFS中有一个目录,其中包含几千兆字节的图像文件。这些文件有多种类型(jpg、png、gif)。对于每个文件picturename.jpg,我希望在HBase中有一行以picturename作为行键,一列包含图像数据。有人可以解释一下我将如何完成这样的事情吗? 最佳答案 对于背景,HBase将所有内容存储为二进制。你会Put和Get二进制数据。将图像作为二进制文件读取正如您所描述的,HBase表看起来像rowkeycf:data有几种方法可以将数据提取到HBase。使用或不使用mapredu

hadoop - 如何获取HDFS中特定时间后创建的目录列表?

我需要提取HDFS文件系统中特定时间段后创建的目录。Hadoop是否提供任何API或方法来获取此信息? 最佳答案 如果上次修改时间足够(Unixdoesnottrackcreationtimes,seee.g.thispost),以下内容可能有所帮助。使用API,您可以询问或filestatus并调用getModificationTime.使用命令行,您可以在Hadoop2.7中使用hadoopfs-ls-R-t.列出所有文件并按修改时间对它们进行排序。在以前的版本中,此排序不可用。此外,解析ls的输出并不总是一件好事,如thisp