草庐IT

hadoop - 如果输入文件有任何变化,Flume 将日志写入 hdfs

我是ApacheFlume的新手,我有一个用例,其中有一个定期更新的输入文件“sample.txt”,它最初包含以下数据NameAgeSexAddressxxx20MChennai有时它会更新为NameAgeSexAddressYYY25FSalemZZZ18MCovai每当输入文件发生变化时,我希望使用Apacheflume将该文件写入hdfs。任何人都可以建议我链接或者任何人都可以告诉我如何实现这一目标 最佳答案 您可以将flumetail视为来源。我正在指向一些url。请引用它们。http://www.rittmanmead.

hadoop - 大 gz 文件上的 Mapreduce

我有一个大约120GB的大gz文件。我想对其运行mapreduce,但由于gz文件不可分割,因此只有一个映射器能够一次处理该文件。该文件存在于hdfs和本地。我正在考虑的可能选项:1)解压那个gz文件并将其存储在hdfs中:首先,解压文件和将解压数据放入hdfs会花费太多时间。此外,我无法直接在hdfs中解压缩文件,因为hdfs没有zcat或gunzip命令。所以我必须做zcata.gz|hdfsdfsput-/path/in/hdfs。此外,这将在hdfs中占用大量空间(大约是gz的4倍)2)将文件拆分为小文件(每个大约1GB)并对其进行处理:最佳选择,但遗憾的是无法正常工作。我正在

hadoop - 名称节点无法启动

我正在尝试将HDFS从1.2.1升级到2.6版。但是,每当我运行start-dfs.sh-upgrade命令时,都会出现以下错误:hduser@Cluster1-NN:/usr/local/hadoop2/hadoop-2.6.0/etc_bkp/hadoop$$HADOOP_NEW_HOME/sbin/start-dfs.sh-upgrade17年5月15日12:45:58警告util.NativeCodeLoader:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类在[nn]上启动名称节点错误:请指定--hosts或--hostnames选项之一,

hadoop - 将文件从远程 Unix 和 Windows 服务器复制到 HDFS,无需中间暂存

如何在不从命令行进行中间暂存的情况下将文件从远程Unix和Windows服务器复制到HDFS? 最佳答案 您可以使用以下命令:hadoopfs-cp/user/myuser/copyTestFolder/*hdfs://remoteServer:8020/user/remoteuser/copyTestFolder/反之亦然,从服务器复制到本地机器。您还可以阅读hadoopdocumentation. 关于hadoop-将文件从远程Unix和Windows服务器复制到HDFS,无需中间暂

sql - 在 hdfs 中存储关系数据的最佳方式

最近我阅读了很多关于hadoop的文章,我可以说我理解它的一般概念,但仍然(至少)有一block拼图我无法理解。在hdfs中存储关系数据的最佳方式是什么。首先,我知道hadoop的存在无法替代为我的应用程序提供服务的传统好旧sql数据库。我在这里面临的问题是我想使用hadoop将来自多个系统的数据聚合到hdfs中。然后我可以将来自多个系统的数据交叉引用在一起,然后生成我的报告工具等使用的新数据集。好吧,那么,我应该使用一个表将表数据导入一个文件,还是应该导入连接表的查询结果。例如:SQLtables:Person:PersonIDNameBirthdaySexCompany:Compa

hadoop - 在脚本中运行脚本? - Hive(和其他 QL)

是否可以在运行脚本的其余部分之前调用脚本并运行它?我的目标是执行一个设置脚本,该脚本将下载和组织执行我的主要查询所需的数据。我正在寻找类似的东西:createtablelogcontent(contentstring)rowformatdelimitedfieldsterminatedby'\n';**callsecondaryhivescriptwithdate-rangeargumentsanddownloadnecessarylogsinto****performtherestofthequery**我想这样做是为了为表格设置创建一个很好的抽象,以便最终用户不必担心表格设置,这将

hadoop - 如何将图像文件从 HDFS 目录移动到 HBase?

我有ClouderaCDH5.3.0我在HDFS中有一个目录,其中包含几千兆字节的图像文件。这些文件有多种类型(jpg、png、gif)。对于每个文件picturename.jpg,我希望在HBase中有一行以picturename作为行键,一列包含图像数据。有人可以解释一下我将如何完成这样的事情吗? 最佳答案 对于背景,HBase将所有内容存储为二进制。你会Put和Get二进制数据。将图像作为二进制文件读取正如您所描述的,HBase表看起来像rowkeycf:data有几种方法可以将数据提取到HBase。使用或不使用mapredu

hadoop - 如何获取HDFS中特定时间后创建的目录列表?

我需要提取HDFS文件系统中特定时间段后创建的目录。Hadoop是否提供任何API或方法来获取此信息? 最佳答案 如果上次修改时间足够(Unixdoesnottrackcreationtimes,seee.g.thispost),以下内容可能有所帮助。使用API,您可以询问或filestatus并调用getModificationTime.使用命令行,您可以在Hadoop2.7中使用hadoopfs-ls-R-t.列出所有文件并按修改时间对它们进行排序。在以前的版本中,此排序不可用。此外,解析ls的输出并不总是一件好事,如thisp

hadoop - 配置 flume 在将数据下沉到 hdfs 时不生成 .tmp 文件

我正在使用flume将数据从服务器日志流式传输到hdfs。但是当数据流式传输到hdfs时,它首先创建.tmp文件。在配置中是否有一种方法可以隐藏.tmp文件,或者可以通过附加.tmp文件来更改名称。在前。我的收集代理文件看起来像-##TARGETAGENT####configurationfilelocation:/etc/flume/conf##STARTAgent:flume-ngagent-cconf-f/etc/flume/conf/flume-trg-agent.conf-ncollector#http://flume.apache.org/FlumeUserGuide.ht

hadoop - 二级名称节点功能

谁能解释一下从教科书中摘录的粗体字词的确切含义?“次要名称节点的状态滞后于主要名称节点的状态”是什么意思?二级名称节点保留合并命名空间图像的副本,可在名称节点出现故障时使用。**然而,国家次要名称节点滞后于主要名称节点,因此如果主要名称节点完全失败,数据丢失几乎是肯定的。**在这种情况下,通常的做法是将名称节点在NFS上的元数据文件复制到辅助并将其作为新的主要运行。提前致谢 最佳答案 Hadoop1.x:当我们启动hahadoop集群时,它会创建一个文件系统镜像,用于保存整个hadopp集群的元数据信息。当一个新条目进入hadoop