flume

hadoop - 使用flume将数据存储到linux本地目录

是否可以使用flume从oracle获取数据并将其存储在Linux本地文件夹中，而不是hdfs中？最佳答案使用“FileRollSink”，您可以将流式数据存储到本地系统。但是Flume不能用于从任何RDMS工具中摄取数据。关于hadoop-使用flume将数据存储到linux本地目录，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/17718778/

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto

GetJavaProperty hadoop java URLClassLoader ClassLoader flume

hadoop - 如何将事件拆分为多个事件以将它们发送到多路复用扇出流

我们计划使用kafkaflume-ng集成(Flafka)，其中flume是kafka队列的消费者。Flume代理将接收文件列表命令及其输出，如下所示:root@host>[Command1][Output1]root@host>[Command2][Output2]该文件可能包含多个命令，并且一个命令的输出可能很大。我们需要拦截事件(也就是文件数据)，根据命令将事件拆分成多个事件。然后源会将流扇出到多个channel，将每个子事件发送到一个channel(使用多路复用)，每个接收器将命令信息存储到各自的Hive表。是否可以使用扇出流将一个事件拆分为多个事件？或者换句话说，我们可以在拦

复用送到拦截器 section channel hadoop hdfs bigdata flume flume-ng

ubuntu - java.lang.NoSuchFieldError : IBM_JAVA 错误

我看到很多关于这个问题的引用，我已经关注了here中的帖子我正在使用Hadoop2.4.1和Flume1.5.0.1。我的flume-env.sh配置如下FLUME_CLASSPATH="/var/lib/apache-flume-ng:lib/hadoop-core-1.2.0.jar:lib/hadoop-auth-2.4.1.jar:lib/hadoop-yarn-api-2.4.1.jar:lib/hadoop-mapreduce-client-jobclient-2.4.1.jar:lib/hadoop-mapreduce-client-core-2.4.1.jar:lib/

NoSuchFieldError IBM_JAVA java hadoop apache ubuntu flume

hadoop - 在 HDFS 中创建文件但不附加任何内容

我正在使用HTTP源将JSON文件放入HDFS(单节点SANDBOX)。文件在正确的目录中创建，但没有任何内容附加到文件中。在我开始调试HTTP源之前，你能验证我的flume.conf吗？##################################################################Namethecomponentsonthisagent#################################################################hdfs-agent.sources=httpsourcehdfs-agent.sin

建文中创 hdfs-agent hdfs agent hadoop cloudera flume hortonworks-data-platform flume-ng

hadoop - 用于单行和多行日志的自定义 RecordReader

我正在尝试创建一个MR作业，它将更改通过Flume加载到HDFS中的日志文件的格式。我正在尝试将日志转换为一种格式，其中字段由“:::”分隔。例如date/timestamp:::log-level:::rest-of-log我遇到的问题是有些日志是单行的，有些是多行的，我需要在日志的其余字段中保持多行日志的完整性。我已经编写了一个自定义的InputFormat和RecordReader来尝试执行此操作(基本上只是修改了NLineRecordReader以追加行，直到它到达日期戳，而不是附加固定数量的行)。我用来格式化日志的MR作业似乎工作正常，但RecordReader似乎无法正常工

多行自定 line maxLineLength Text hadoop mapreduce flume

java - Apache Flume/var/log/flume-ng/flume.log(权限被拒绝)

我正在尝试从/home/cloudera/Documents/flume/读取日志文件并使用apacheflume将其写入hdfs。我使用以下命令在hdfs中创建flumeLogTest文件夹:sudo-uhdfshadoopfs-mkdirflumeLogTestsudo-uhdfshadoopfs-chownflume:flumeflumeLogTest我的配置文件是:agent.sources=srcagent.channels=chagent.sinks=snkagent.sources.src.type=execagent.sources.src.command=tail-f

flume log java PropertyConfigurator hadoop flume-ng

hadoop - 当客户端关闭连接时，Hadoop 如何处理未复制的数据？

我正在运行Hadoop2.5.0-cdh5.3.2集群。Flume正在别处运行，正在向这个集群写入数据。当集群负载较重时，flume-agent完成写入并尝试在HDFS完成数据复制之前关闭文件。关闭失败并重试，但flume-agent配置了超时，当关闭无法及时完成时，flume-agent断开连接。HDFS对没有完成复制的文件做了什么？我的印象是后台线程会完成复制，但我在我的集群中只看到部分写入的block。该block有一个好的副本，并且副本仅部分写入，因此HDFS认为该block已损坏。我已经通读了recoveryprocess没想到我会留下未写的block。我有以下客户端设置

何处 hadoop block section replace-datanode-on-failure hdfs flume

hadoop - 使用 flume 读取 IBM MQ 数据

我想从IBMMQ读取数据并将其放入HDF。查看了flume的JMS源，似乎它可以连接到IBMMQ，但我不明白所需属性列表中的“destinationType”和“destinationName”是什么意思。有人可以解释一下吗？此外，我应该如何配置我的水槽代理flumeAgent1(跑在和MQ一样的机器上)读取MQ数据----flumeAgent2(跑在Hadoop集群上)写入Hdfs或者在Hadoop集群上只有一个代理就足够了谁能帮助我理解如何将MQ与flume集成引用https://flume.apache.org/FlumeUserGuide.html谢谢，查雅

hadoop flume code section sources streaming ibm-mq

csv - 带水槽的 Unicode 字符

我正在尝试使用水槽将CSV文件放入HDFS，文件还包含一些unicode字符。文件在HDFS中后，我尝试查看内容，但无法正确查看记录。文件内容NameagesalmsgAbc211200Lukè éxample àppleXyz231400erstîgetûfmitgrôzer控制台输出我做了hdfsdfs-get/flume/events/csv/events.1234567下面是输出Name,age,sal,msgAbc,21,1200,Luk��xample��ppleXyz,23,1400,erst�get�fmitgr�zerflume支持Unicode字符吗？如果不是如何处

水槽 Unicode section sinks code csv hadoop flume

1 234 5 6