草庐IT

大数据Hadoop、HDFS、Hive、HBASE、Spark、Flume、Kafka、Storm、SparkStreaming这些概念你是否能理清?

1.HadoopHadoop是大数据开发的重要框架,是一个由Apache基金会所开发的分布式系统基础架构,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,在Hadoop2.x时代,增加了Yarn,Yarn只负责资源的调度。目前hadoop包括hdfs、mapreduce、yarn、核心组件。hdfs用于存储,mapreduce用于计算,yarn用于资源管理。2HDFSHDFS是什么?HadoopDistributedFileSystem:分步式文件系统源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版H

【大数据-Flume】

文章目录前言一、Flume基础架构1、Agent2、Source3、Sink4、Channel5、Event二、Flume安装三、案例1、监控端口数据2、实时监控单个追加文件3、实时监控目录下多个新文件4、实时监控目录下的多个追加文件5、ChannelSelector6、SinkProcessor7、聚合前言Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。一、Flume基础架构1、AgentAgent是一个JVM进程,它以事件的形式

hadoop - 边缘或工作节点上的 Flume?

对于数据摄取,我想使用flume并将其放在边缘节点(在集群外的安全DMZ中)或一个工作节点上。是否有放置位置的最佳实践?每种方法的优点/缺点是什么? 最佳答案 工作节点(即数据节点)上的Flume存在一个问题。使用HDFS,当客户端在数据节点上运行时写入数据时,数据的第一个副本始终写入本地数据节点。所以如果你有很多数据节点,然后你只在其中几个上运行Flume,那么这些数据节点往往会比其他节点使用更多的空间。这实际上取决于您计划使用Flume写入多少数据,这是否会成为一个问题,以及您是否在写入数据后对其进行处理。在边缘节点上安装Flu

java - 启动flume agent显示jdk路径错误,是目录,无法执行

我在安装flume时遇到错误。由于jdk路径显示为目录且无法执行,我无法启动flumeagent。请帮我解决这个问题,以便在我的hdfs中获取JSON数据hadoop1@ubuntu:~/Downloads/apache-flume-1.6.0-bin$bin/flume-ngagent-conf./conf/-fconf/flume.conf-Dflume.root.logger=DEBUG,console-nTwitterAgentWarning:Noconfigurationdirectoryset!Use--conftooverride.Info:IncludingHadoop

java - 如何管理flume agent之间的并发。

我正在从事大数据项目。我们正在使用flume将文件从sftp下载到HDFS。然后,我们配置了3个代理。他们从同一个来源阅读。结果,我们将3个重复文件放入HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对处理过的文件保持可追溯性,并管理代理之间的并发性。例如,我们有3个主要代理A1、A2和A3。如果代理A2正在处理或正在处理文件xxx.csv。其他人不会处理它,并会寻找未处理的文件。因此,每个文件只能由一个代理处理。有没有人处理过类似的问题? 最佳答案 使用loadbalancingsinkprocessor可以有1个源

hadoop - 编写 Flume 配置,将不断增长的文件上传到 HDFS

我是Flume的新手,在配置方面遇到了一些问题。我在OracleVirtualBox上使用HortonworksSandboxHDP2.6.5(如果这很重要)。我的VM中有一个文本文件input_data.txt:input_data.txt的内容如下所示:我使用以下命令来创建并逐渐增加输入:catinput_data.txt|whilereadline;doecho"$line";sleep0.2;done>output.txt我想要实现的目标:1)编写一个Flume配置,将不断增长的output.txt文件上传到HDFS2)如果可能-HDFS中的目标文件必须在每次源文件(/usr/

hadoop - 使用flume将数据存储到linux本地目录

是否可以使用flume从oracle获取数据并将其存储在Linux本地文件夹中,而不是hdfs中? 最佳答案 使用“FileRollSink”,您可以将流式数据存储到本地系统。但是Flume不能用于从任何RDMS工具中摄取数据。 关于hadoop-使用flume将数据存储到linux本地目录,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/17718778/

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto

java - Apache Flume/var/log/flume-ng/flume.log(权限被拒绝)

我正在尝试从/home/cloudera/Documents/flume/读取日志文件并使用apacheflume将其写入hdfs。我使用以下命令在hdfs中创建flumeLogTest文件夹:sudo-uhdfshadoopfs-mkdirflumeLogTestsudo-uhdfshadoopfs-chownflume:flumeflumeLogTest我的配置文件是:agent.sources=srcagent.channels=chagent.sinks=snkagent.sources.src.type=execagent.sources.src.command=tail-f

hadoop - 使用 flume 读取 IBM MQ 数据

我想从IBMMQ读取数据并将其放入HDF。查看了flume的JMS源,似乎它可以连接到IBMMQ,但我不明白所需属性列表中的“destinationType”和“destinationName”是什么意思。有人可以解释一下吗?此外,我应该如何配置我的水槽代理flumeAgent1(跑在和MQ一样的机器上)读取MQ数据----flumeAgent2(跑在Hadoop集群上)写入Hdfs或者在Hadoop集群上只有一个代理就足够了谁能帮助我理解如何将MQ与flume集成引用https://flume.apache.org/FlumeUserGuide.html谢谢,查雅