flume1

hadoop - 如何摆脱 Flume 拦截器中的 NullPointerException？

我有一个为Flume代码编写的拦截器如下:publicEventintercept(Eventevent){byte[]xmlstr=event.getBody();InputStreaminstr=newByteArrayInputStream(xmlstr);//TransformerFactoryfactory=TransformerFactory.newInstance(TRANSFORMER_FACTORY_CLASS,TRANSFORMER_FACTORY_CLASS.getClass().getClassLoader());TransformerFactoryfactor

hadoop - Apache Flume spoolDirectory 配置失败

我正在使用以下代码将源目录中的文件写入hdfs。#Initializeagent'ssource,channelandsinkagent.sources=testagent.channels=memoryChannelagent.sinks=flumeHDFS#Settingthesourcetospooldirectorywherethefileexistsagent.sources.test.type=spooldiragent.sources.test.spoolDir=/Data#Settingthechanneltomemoryagent.channels.memoryCha

spoolDirectory hadoop agent java flumeHDFS flume flume-ng

hadoop - 使用 Flume Serializer 生成复合 hbase rowkey

我有这样的GIS数据-'111,2011-02-0120:30:30,116.50443,40.00951''111,2011-02-0120:30:31,116.50443,40.00951''112,2011-02-0120:30:30,116.58197,40.06665''112,2011-02-0120:30:31,116.58197,40.06665'第一列是driver_id，第二个是timestamp,第三个是longitude&第四个是latitude.我正在使用Flume摄取此类数据，我的接收器是HBase(类型-AsyncHBaseSink)。默认情况下，HBas

Serializer hadoop code section rowKeyBytes hbase interceptor flume serialization

hadoop - 如何使用flume创建任务自动定时从HDFS加载数据到HIVE？

我需要将数据从hadoop自动加载到hive，但我不想设置其他服务来执行此操作。我已经使用flume来收集我的日志了……那我该怎么办呢？flume是否可以执行命令(查询hive就像LOAD.....)？最佳答案抱歉，我来晚了一点，但实际上我已经整理了一个非常完整的示例，说明如何执行此操作并公开了所有细节。也许，它会帮助别人http://www.lopakalogic.com/articles/hadoop-articles/log-files-flume-hive/祝你好运! 关于h

hadoop flume section articles hive

hadoop - Flume to HDFS 将一个文件分割成很多文件

我正在尝试将一个700MB的日志文件从flume传输到HDFS。我已按如下方式配置了flume代理:...tier1.channels.memory-channel.type=memory...tier1.sinks.hdfs-sink.channel=memory-channeltier1.sinks.hdfs-sink.type=hdfstier1.sinks.hdfs-sink.path=hdfs://***tier1.sinks.hdfs-sink.fileType=DataStreamtier1.sinks.hdfs-sink.rollSize=0source是一个spool

hadoop Flume code hdfs section flume-ng

mongodb - flume 或 kafka 相当于 mongodb

在Hadoop世界中，flume或kafka用于流式传输或收集数据并将它们存储在Hadoop中。我只是想知道MangoDB是否有一些类似的机制或工具来实现一些？最佳答案 MongoDB只是数据库层，并不是像Hadoop生态系统那样的完整解决方案。实际上，在需要处理和存储大量传入数据的情况下，我实际上使用Kafka和Storm将数据存储在MongoDB中。关于mongodb-flume或kafka相当于mongodb，我们在StackOverflow上找到一个类似的问题：

mongodb 相当 section Hadoop stackoverflow flume apache-kafka

hadoop - Flume 内存 channel 在启动时已满

我在使用Flume内存channel时遇到问题。我运行了一个Flume代理，它淹没了内存channel并且日志开始溢出“channel已满，现在无法写入数据。源将在250毫秒后重试”到目前为止一切顺利。我停止代理，编辑flume.conf以增加容量并重试。问题是Flume在启动时已经溢出了相同的消息:`16/05/1400:21:48INFOnode.Application:Startingnewconfiguration:{sourceRunners:{s1=EventDrivenSourceRunner:{source:SpoolDirectorysources1:{spoolDi

channel hadoop flume section memory

hadoop - 停止 Flume Agent

我有一个要求，我想以假脱机目录作为源来运行Flume代理。将假脱机目录中的所有文件复制到HDFS(sink)后，我希望代理停止，因为我知道所有文件都被推送到channel。此外，我想每次都针对不同的假脱机目录运行此步骤，并在目录中的所有文件都标记为.COMPLETED时停止代理。有什么办法可以停止flumeagent吗？最佳答案现在我建议在运行flumeagent时打开flumeagent终端。然后在这个终端执行ctrl+c，agent就没了。关于hadoop-停止FlumeAge

hadoop Flume section agent stackoverflow flume-ng

使用 Flume/Hadoop 时 Ubuntu 中的 Java 内存不足异常

当我尝试使用Flume下载推文并将它们通过管道传输到Hadoop时，由于缺少Java堆空间，我遇到了内存不足异常。我在Hadoop的mapred-site.xml中设置了当前堆空间为4GB，如下所示:mapred.child.java.opts-Xmx4096m我希望连续两天下载推文，但不能超过45分钟而不会出错。因为我确实有足够的磁盘空间来保存所有这些，所以我假设错误来自Java必须同时处理这么多事情。有没有办法让我减慢这些推文的下载速度，或者采取其他措施来解决这个问题？编辑:包括flume.confTwitterAgent.sources=TwitterTwitterAgent.c

Hadoop Ubuntu TwitterAgent section Twitter java heap-memory flume

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

FileNotFoundException Streaming code section hdfs hadoop flume tmp

1 2 345 6 7