flume

hadoop - 水槽的 Spool Dir 可以在远程机器上吗？

每当新文件到达特定文件夹时，我都试图从远程机器获取文件到我的hdfs。我在flume中遇到了spooldir的概念，如果spooldir在运行flumeagent的同一台机器上，它工作正常。有什么方法可以在远程机器上配置假脱机目录吗？？请帮忙。最佳答案您可能知道flume可以产生多个实例，即您可以安装多个flume实例，这些实例在它们之间传递数据。所以回答你的问题:不，水槽不能访问远程假脱机目录。但是你可以安装两个代理，一个在有spool目录的机器上，一个在hadoop节点上。第一个将从假脱机中读取并通过avrorpc将其传递给

水槽 hadoop section flume hdfs bigdata spool

hadoop - 将日志文件从边缘节点提取到 Hadoop

我正在寻找一种将整个日志文件从边缘节点流式传输到Hadoop的方法。总结用例:我们的应用程序可以生成每个文件几MB到数百MB不等的日志文件。我们不想流式传输所有发生的日志事件。在日志文件完全写入后将其完整推送是我们正在寻找的(完全写入=例如移动到另一个文件夹中......这对我们来说不是问题)。这应该由边缘节点上的某种轻量级代理直接处理到HDFS，或者-如有必要-一个中间“接收器”，它将随后将数据推送到HDFS。集中式管道管理(=以集中方式配置所有边缘节点)会很棒我得出了以下评价:Elastic的Logstash和FileBeats可以使用边缘节点的集中式管道管理，例如所有边缘节点的集

hadoop li 流式的 bigdata logstash apache-nifi flume

hadoop - 使用 Distcp 在 Hadoop 中提取数据

我知道distcp用于集群间/集群内的数据传输。是否可以使用distcp将数据从本地文件系统提取到HDFS。我知道你可以使用file:///....指向HDFS之外的本地文件，但与集群间/集群内传输相比，它的可靠性和速度如何。最佳答案 Distcp是在hadoop集群内部执行的mapreduce作业。从hadoop集群的角度来看，您的本地计算机不是本地文件系统。那么你不能将你的本地文件系统与distcp一起使用。另一种方法是在你的机器上配置一个hadoop集群可以读取的FTP服务器。性能取决于网络和使用的协议(protocol)(

hadoop Distcp strong section hdfs flume

hadoop - Apache flume 和 Apache storm 有什么区别？

Apacheflume和Apachestorm有什么区别？是否可以使用storm将日志数据提取到Hadoop集群中？两者都用于流式数据，那么可以使用storm来替代flume吗？最佳答案 ApacheFlume是一项用于收集大量流数据(尤其是日志)的服务。Flume使用称为数据接收器的机制将数据推送给消费者。Flume可以立即将数据推送到许多流行的接收器，包括HDFS、HBase、Cassandra和一些关系数据库。ApacheStorm涉及流数据。它是批处理和流处理之间的桥梁，而Hadoop本身并不是为处理流处理而设计的。Sto

Apache hadoop section li apache-storm flume hortonworks-data-platform

hadoop - Flume NG 和 HDFS

我是hadoop的新手，所以请原谅这些愚蠢的问题。我有以下知识Hadoop的最佳用例是大文件，因此有助于在运行mapreduce任务时提高效率。牢记以上几点，我对FlumeNG感到有些困惑。假设我正在拖尾一个日志文件并且每秒生成一次日志，当日志获得新行时，它将通过Flume传输到hdfs。a)这是否意味着flume在我拖尾的日志文件中记录的每一行上创建一个新文件，或者它是否附加到现有的hdfs文件？b)首先在hdfs中允许追加吗？？c)如果b的答案为真？即内容不断附加，我应该如何以及何时运行我的mapreduce应用程序？以上问题听起来可能很愚蠢，但非常感谢能回答相同的问题。PS:我还

hadoop Flume code section hdfs

hadoop - 如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤:Flafka将日志写入HDFS上的“着陆区”。由Oozie安排的作业将完整文件从着陆区复制到暂存区。暂存数据由使用暂存区域作为其位置的Hive表“模式化”。将暂存表中的记录添加到永久Hive表中(例如，insertintopermanent_tableselect*fromstaging_table)。通过在Impala中执行refreshpermanent_table，可以在Impala中使用来自Hive表的数据。我查看了我构建的流程，它“闻起来”很糟糕:有太多的中间步骤会影响数据流。大约20个月前，我看到了一个演示，其中数据从AmazonKinesis管道流式

hadoop Impala section 存区 apache-kafka flume

scala - 在 Java/Scala for Hadoop 中构建数据分析管道的最成熟的库是什么？

我最近发现了很多选择，主要通过成熟度和稳定性对它们进行比较很有趣。紧缩-https://github.com/cloudera/crunch紧缩-https://github.com/cloudera/crunch/tree/master/scrunch级联-http://www.cascading.org/烫洗https://github.com/twitter/scaldingFlumeJavaScoobi-https://github.com/NICTA/scoobi/ 最佳答案因为我是Scoobi的开发者，所以不要指望得到

成熟 Hadoop https section github scala cascading flume

hadoop - Flume 和 Sqoop 有什么区别？

Flume和Sqoop都是做数据移动的，那么它们有什么区别呢？什么情况下应该使用Flume还是Sqoop？最佳答案来自http://flume.apache.org/Flumeisadistributed,reliable,andavailableserviceforefficientlycollecting,aggregating,andmovinglargeamountsoflogdata.Flume有助于从各种来源收集数据，例如日志、jms、目录等。可以配置多个flume代理来收集大量数据。它水平缩放。来自http://s

hadoop Flume section blockquote sqoop

2023_Spark_实验三十：测试Flume到Kafka

实验目的：测试Flume采集数据发送到Kafka实验方法：通过centos7集群测试，将flume采集的数据放到kafka中实验步骤：一、 kafka可视化工具介绍KafkaTool是一个用于管理和使用ApacheKafka集群的GUI应用程序。KafkaTool提供了一个较为直观的UI可让用户快速查看Kafka集群中的对象以及存储在topic中的消息，提供了一些专门面向开发人员和管理员的功能，主要特性包括：-快速查看所有Kafka集群信息，包括其brokers,topicsandconsumers-查看分区中的消息内容并支持添加新消息-查看消费者偏移量，支持查看ApacheStormKafk

实验测试 img img-blog https spark flume kafka

2023_Spark_实验二十八：Flume部署及配置

实验目的：熟悉掌握Flume部署及配置实验方法：通过在集群中部署Flume，掌握Flume配置实验步骤：一、Flume简介Flume是一种分布式的、可靠的和可用的服务，用于有效地收集、聚合和移动大量日志数据。它有一个简单灵活的基于流数据流的体系结构。它具有健壮性和容错性，具有可调可靠性机制和多种故障转移和恢复机制。它使用了一个简单的可扩展数据模型，允许在线分析应用程序。其体系结构如下：二、Flume安装与配置下载Flumehttps://archive.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz安装Flume将下载好的Fl

部署配置 Flume HOME 大数据

5 6 789 10 11