草庐IT

Flume-ng

全部标签

使用 Flume/Hadoop 时 Ubuntu 中的 Java 内存不足异常

当我尝试使用Flume下载推文并将它们通过管道传输到Hadoop时,由于缺少Java堆空间,我遇到了内存不足异常。我在Hadoop的mapred-site.xml中设置了当前堆空间为4GB,如下所示:mapred.child.java.opts-Xmx4096m我希望连续两天下载推文,但不能超过45分钟而不会出错。因为我确实有足够的磁盘空间来保存所有这些,所以我假设错误来自Java必须同时处理这么多事情。有没有办法让我减慢这些推文的下载速度,或者采取其他措施来解决这个问题?编辑:包括flume.confTwitterAgent.sources=TwitterTwitterAgent.c

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

hadoop - 写HDFS的flume agent在哪里运行?

我有25-20个代理将数据发送给几个收集器代理,然后这些收集器代理必须将数据写入HDFS。在哪里运行这些收集器代理?在Hadoop集群的Data节点上还是集群外?它们各自的优缺点是什么?人们目前是如何运行它们的? 最佳答案 第2层水槽代理使用hdfsSink直接写入HDFS。更重要的是,Tier1可以使用failoversinkgroup。如果第2层水槽代理之一出现故障。 关于hadoop-写HDFS的flumeagent在哪里运行?,我们在StackOverflow上找到一个类似的问题

hadoop - 如果输入文件有任何变化,Flume 将日志写入 hdfs

我是ApacheFlume的新手,我有一个用例,其中有一个定期更新的输入文件“sample.txt”,它最初包含以下数据NameAgeSexAddressxxx20MChennai有时它会更新为NameAgeSexAddressYYY25FSalemZZZ18MCovai每当输入文件发生变化时,我希望使用Apacheflume将该文件写入hdfs。任何人都可以建议我链接或者任何人都可以告诉我如何实现这一目标 最佳答案 您可以将flumetail视为来源。我正在指向一些url。请引用它们。http://www.rittmanmead.

hadoop - 配置 flume 在将数据下沉到 hdfs 时不生成 .tmp 文件

我正在使用flume将数据从服务器日志流式传输到hdfs。但是当数据流式传输到hdfs时,它首先创建.tmp文件。在配置中是否有一种方法可以隐藏.tmp文件,或者可以通过附加.tmp文件来更改名称。在前。我的收集代理文件看起来像-##TARGETAGENT####configurationfilelocation:/etc/flume/conf##STARTAgent:flume-ngagent-cconf-f/etc/flume/conf/flume-trg-agent.conf-ncollector#http://flume.apache.org/FlumeUserGuide.ht

hadoop - 大数据摄取 - Flafka 用例

我已经看到大数据社区非常热衷于以多种方式使用Flafka进行数据摄取,但我还没有真正理解为什么。为了更好地理解这一点,我开发了一个简单示例,即摄取Twitter数据并将它们移动到多个接收器(HDFS、Storm、HBase)。ingestion部分我通过以下两种方式实现:(1)具有多个消费者的普通KafkaJava生产者(2)Flumeagent#1(Twittersource+Kafkasink)|(潜在的)Flumeagent#2(Kafkasource+multiplesinks)。我没有真正看到开发任何这些解决方案的复杂性有什么不同(不是生产系统,我无法评论性能)——我在网上发

hadoop - Flume 创建小文件

我正在尝试使用水槽从本地系统将我的文件移动到hdfs中,但是当我运行我的水槽时,它会创建许多小文件。我的原始文件大小为154-500Kb,但在我的HDFS中它创建了许多大小为4-5kb的文件。我搜索并了解到更改rollSize和rollCount会起作用我增加了值但仍然发生同样的问题。我也遇到了以下错误。错误:ERRORhdfs.BucketWriter:Hitmaxconsecutiveunder-replicationrotations(30);willnotcontinuerollingfilesunderthispathduetounder-replication因为我在集群中

hadoop - Flume 将数据从 MySQL 迁移到 Hadoop

请分享您的想法。需求是将MySQL数据库中的数据迁移到Hadoop/HBase中进行分析。数据应实时或接近实时迁移。水槽可以支持这个吗?什么是更好的方法。 最佳答案 据我了解,Flume并非为此而生。Flume基本上用于读取数据源(平面文件)之类的日志,并将它们以结构化的方式推送到接收器。Sqoop可以用,试试看http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html 关于hadoop-Flume将数据从MySQL迁移到Had

hadoop - 使用 Flume 将数据从 kafka 提取到 HDFS::ConfigurationException:必须指定引导服务器

我正在尝试使用水槽将数据从kafka源提取到hdfs。下面是我的水槽配置文件。flume1.sources=kafka-source-1flume1.channels=hdfs-channel-1flume1.sinks=hdfs-sink-1flume1.sources.kafka-source-1.type=org.apache.flume.source.kafka.KafkaSourceflume1.sources.kafka-source-1.bootstrap.servers=localhost:9092flume1.sources.kafka-source-1.zookee

hadoop - sink.hdfs writer 在我的文本文件中添加垃圾

我已成功配置flume以将文本文件从本地文件夹传输到hdfs。我的问题是当这个文件被传输到hdfs时,一些不需要的文本“hdfs.write.Longwriter+binarycharacters”在我的文本文件中有前缀。这是我的flume.confagent.sources=flumedumpagent.channels=memoryChannelagent.sinks=flumeHDFSagent.sources.flumedump.type=spooldiragent.sources.flumedump.spoolDir=/opt/test/flume/flumedump/age