flume

hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop？

我正在寻找可以用来从社交媒体流式传输数据的技术到hadoop。我搜索并找到了那些技术水槽。Storm。卡夫卡。哪个工具最好？为什么？有人熟悉其他一些工具吗？最佳答案您很可能会想要使用Flume，因为它是为与hdfs一起工作而构建的。然而，与所有事情一样，这取决于。Kafka基本上是一个队列系统，通常用于在分析架构发生故障时保留数据。如果这听起来像您需要的，可能值得研究RabbitMQ,ZeroMQ，或者可能是Kestrel.Storm用于复杂的事件处理。如果你使用storm，你将在引擎盖下使用zeroMQ，并且可能必须设置一个连

hadoop 流式 section noreferrer noopener flume apache-kafka social-media

hadoop - Flume to HDFS 将一个文件分割成很多文件

我正在尝试将一个700MB的日志文件从flume传输到HDFS。我已按如下方式配置了flume代理:...tier1.channels.memory-channel.type=memory...tier1.sinks.hdfs-sink.channel=memory-channeltier1.sinks.hdfs-sink.type=hdfstier1.sinks.hdfs-sink.path=hdfs://***tier1.sinks.hdfs-sink.fileType=DataStreamtier1.sinks.hdfs-sink.rollSize=0source是一个spool

hadoop Flume code hdfs section flume-ng

mongodb - flume 或 kafka 相当于 mongodb

在Hadoop世界中，flume或kafka用于流式传输或收集数据并将它们存储在Hadoop中。我只是想知道MangoDB是否有一些类似的机制或工具来实现一些？最佳答案 MongoDB只是数据库层，并不是像Hadoop生态系统那样的完整解决方案。实际上，在需要处理和存储大量传入数据的情况下，我实际上使用Kafka和Storm将数据存储在MongoDB中。关于mongodb-flume或kafka相当于mongodb，我们在StackOverflow上找到一个类似的问题：

mongodb 相当 section Hadoop stackoverflow flume apache-kafka

hadoop - 创建hive表加载推特数据报错

我正在尝试创建外部表并将Twitter数据加载到表中。创建表时出现以下错误，无法跟踪错误。hive>ADDJAR/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar>;Added[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]hive>CREATEEXTERNALTABLEtweets(>idBIGINT,>created_atSTRING,

hadoop hive 34 HiveParser twitter flume bigdata

hadoop - Flume 内存 channel 在启动时已满

我在使用Flume内存channel时遇到问题。我运行了一个Flume代理，它淹没了内存channel并且日志开始溢出“channel已满，现在无法写入数据。源将在250毫秒后重试”到目前为止一切顺利。我停止代理，编辑flume.conf以增加容量并重试。问题是Flume在启动时已经溢出了相同的消息:`16/05/1400:21:48INFOnode.Application:Startingnewconfiguration:{sourceRunners:{s1=EventDrivenSourceRunner:{source:SpoolDirectorysources1:{spoolDi

channel hadoop flume section memory

hadoop - 停止 Flume Agent

我有一个要求，我想以假脱机目录作为源来运行Flume代理。将假脱机目录中的所有文件复制到HDFS(sink)后，我希望代理停止，因为我知道所有文件都被推送到channel。此外，我想每次都针对不同的假脱机目录运行此步骤，并在目录中的所有文件都标记为.COMPLETED时停止代理。有什么办法可以停止flumeagent吗？最佳答案现在我建议在运行flumeagent时打开flumeagent终端。然后在这个终端执行ctrl+c，agent就没了。关于hadoop-停止FlumeAge

hadoop Flume section agent stackoverflow flume-ng

使用 Flume/Hadoop 时 Ubuntu 中的 Java 内存不足异常

当我尝试使用Flume下载推文并将它们通过管道传输到Hadoop时，由于缺少Java堆空间，我遇到了内存不足异常。我在Hadoop的mapred-site.xml中设置了当前堆空间为4GB，如下所示:mapred.child.java.opts-Xmx4096m我希望连续两天下载推文，但不能超过45分钟而不会出错。因为我确实有足够的磁盘空间来保存所有这些，所以我假设错误来自Java必须同时处理这么多事情。有没有办法让我减慢这些推文的下载速度，或者采取其他措施来解决这个问题？编辑:包括flume.confTwitterAgent.sources=TwitterTwitterAgent.c

Hadoop Ubuntu TwitterAgent section Twitter java heap-memory flume

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

FileNotFoundException Streaming code section hdfs hadoop flume tmp

hadoop - 写HDFS的flume agent在哪里运行？

我有25-20个代理将数据发送给几个收集器代理，然后这些收集器代理必须将数据写入HDFS。在哪里运行这些收集器代理？在Hadoop集群的Data节点上还是集群外？它们各自的优缺点是什么？人们目前是如何运行它们的？最佳答案第2层水槽代理使用hdfsSink直接写入HDFS。更重要的是，Tier1可以使用failoversinkgroup。如果第2层水槽代理之一出现故障。关于hadoop-写HDFS的flumeagent在哪里运行？，我们在StackOverflow上找到一个类似的问题

hadoop flume 收集器 section strong flume-ng

hadoop - java.io.IOException : Cannot obtain block length for LocatedBlock 异常

我正在使用HDP2.1。对于集群。我遇到了以下异常，因此MapReduce作业失败了。实际上，我们经常使用来自Flume的数据创建表，这是ver。1.4.我检查了mapper试图读取的数据文件，但我找不到任何内容。2014-11-2800:08:28,696WARN[main]org.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics2-maptask.properties,hadoop-metrics2.properties2014-11-2800:08:28,

LocatedBlock IOException hadoop apache org mapreduce flume

3 4 567 8 9