草庐IT

flume_test

全部标签

hadoop - 停止 Flume Agent

我有一个要求,我想以假脱机目录作为源来运行Flume代理。将假脱机目录中的所有文件复制到HDFS(sink)后,我希望代理停止,因为我知道所有文件都被推送到channel。此外,我想每次都针对不同的假脱机目录运行此步骤,并在目录中的所有文件都标记为.COMPLETED时停止代理。有什么办法可以停止flumeagent吗? 最佳答案 现在我建议在运行flumeagent时打开flumeagent终端。然后在这个终端执行ctrl+c,agent就没了。 关于hadoop-停止FlumeAge

使用 Flume/Hadoop 时 Ubuntu 中的 Java 内存不足异常

当我尝试使用Flume下载推文并将它们通过管道传输到Hadoop时,由于缺少Java堆空间,我遇到了内存不足异常。我在Hadoop的mapred-site.xml中设置了当前堆空间为4GB,如下所示:mapred.child.java.opts-Xmx4096m我希望连续两天下载推文,但不能超过45分钟而不会出错。因为我确实有足够的磁盘空间来保存所有这些,所以我假设错误来自Java必须同时处理这么多事情。有没有办法让我减慢这些推文的下载速度,或者采取其他措施来解决这个问题?编辑:包括flume.confTwitterAgent.sources=TwitterTwitterAgent.c

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

hadoop - 写HDFS的flume agent在哪里运行?

我有25-20个代理将数据发送给几个收集器代理,然后这些收集器代理必须将数据写入HDFS。在哪里运行这些收集器代理?在Hadoop集群的Data节点上还是集群外?它们各自的优缺点是什么?人们目前是如何运行它们的? 最佳答案 第2层水槽代理使用hdfsSink直接写入HDFS。更重要的是,Tier1可以使用failoversinkgroup。如果第2层水槽代理之一出现故障。 关于hadoop-写HDFS的flumeagent在哪里运行?,我们在StackOverflow上找到一个类似的问题

hadoop - 如果输入文件有任何变化,Flume 将日志写入 hdfs

我是ApacheFlume的新手,我有一个用例,其中有一个定期更新的输入文件“sample.txt”,它最初包含以下数据NameAgeSexAddressxxx20MChennai有时它会更新为NameAgeSexAddressYYY25FSalemZZZ18MCovai每当输入文件发生变化时,我希望使用Apacheflume将该文件写入hdfs。任何人都可以建议我链接或者任何人都可以告诉我如何实现这一目标 最佳答案 您可以将flumetail视为来源。我正在指向一些url。请引用它们。http://www.rittmanmead.

hadoop - 配置 flume 在将数据下沉到 hdfs 时不生成 .tmp 文件

我正在使用flume将数据从服务器日志流式传输到hdfs。但是当数据流式传输到hdfs时,它首先创建.tmp文件。在配置中是否有一种方法可以隐藏.tmp文件,或者可以通过附加.tmp文件来更改名称。在前。我的收集代理文件看起来像-##TARGETAGENT####configurationfilelocation:/etc/flume/conf##STARTAgent:flume-ngagent-cconf-f/etc/flume/conf/flume-trg-agent.conf-ncollector#http://flume.apache.org/FlumeUserGuide.ht

hadoop - Flume 创建小文件

我正在尝试使用水槽从本地系统将我的文件移动到hdfs中,但是当我运行我的水槽时,它会创建许多小文件。我的原始文件大小为154-500Kb,但在我的HDFS中它创建了许多大小为4-5kb的文件。我搜索并了解到更改rollSize和rollCount会起作用我增加了值但仍然发生同样的问题。我也遇到了以下错误。错误:ERRORhdfs.BucketWriter:Hitmaxconsecutiveunder-replicationrotations(30);willnotcontinuerollingfilesunderthispathduetounder-replication因为我在集群中

hadoop - Flume 将数据从 MySQL 迁移到 Hadoop

请分享您的想法。需求是将MySQL数据库中的数据迁移到Hadoop/HBase中进行分析。数据应实时或接近实时迁移。水槽可以支持这个吗?什么是更好的方法。 最佳答案 据我了解,Flume并非为此而生。Flume基本上用于读取数据源(平面文件)之类的日志,并将它们以结构化的方式推送到接收器。Sqoop可以用,试试看http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html 关于hadoop-Flume将数据从MySQL迁移到Had

hadoop - 使用 Flume 将数据从 kafka 提取到 HDFS::ConfigurationException:必须指定引导服务器

我正在尝试使用水槽将数据从kafka源提取到hdfs。下面是我的水槽配置文件。flume1.sources=kafka-source-1flume1.channels=hdfs-channel-1flume1.sinks=hdfs-sink-1flume1.sources.kafka-source-1.type=org.apache.flume.source.kafka.KafkaSourceflume1.sources.kafka-source-1.bootstrap.servers=localhost:9092flume1.sources.kafka-source-1.zookee

azure - HDFS ls 在 Flume 写入文件时显示文件大小为 0

我们目前正在设置一个ApacheFlume系统,该系统收集事件数据并将其写入我们的HDInsightHDFS集群中的文件。在验证初始设置时,hdfsls在Flume写入文件时显示文件大小为0,但是当文件滚动(并且删除了.tmp文件扩展名)时,文件大小突然跳起来。在Flume写入文件时,HDFS或HDInsight(或WASB)是否有某种原因导致文件的文件大小为0。 最佳答案 这可能是由于HDFS一致性模型。在向HDFS执行写入时,一旦写入了超过一个block的数据,第一个block将对新读者。后续block也是如此:它始终是当前bl