kafka-stream

hadoop - 如果我使用 -mapper cat 而不是 -mapper org.apache.hadoop.mapred.lib.IdentityMapper，Hadoop Streaming 的性能会降低吗？

我在尝试使用org.apache.hadoop.mapred.lib.IdentityMapper作为HadoopStreaming1.0.3中-mapper的参数时遇到了问题。“猫”虽然有效；使用cat会影响性能——尤其是在ElasticMapReduce上吗？最佳答案我遇到了类似的问题，其中身份映射器不起作用，我必须使用Cat。我们没有看到性能上的巨大变化，据我所知，identitymapper是一个jar，而cat是unix命令。关于hadoop-如果我使用-mapperca

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序，它从Kafka接收HDFS上的文件路径，应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处，因为执行程序可能在任何节点上运行，而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件，同时保持数据局部性？谢谢，丹尼尔最佳答案我不确定你打开文件的意思，如果你能分享一些代码会很有帮助，但如果你使用的是sc.textFile，那是一个RDD转换。转换被集群管理器安排为任务，因此不一定会从运行DStream转换的执行器节点执行。

Streaming Locality section stackoverflow questions hadoop apache-spark spark-streaming

hadoop - 使用水槽的kafka channel 中的动态主题

是否有可能有一个带有动态主题的kafkachannel-比如可以在其中指定主题header的kafka接收器，或者可以在其中使用header中的值的HDFS接收器？我知道我可以多路复用以使用多个channel(具有一堆channel配置)，但这是不可取的，因为我希望有一个动态HDFS接收器，而不是每个kafkachannel都有一个HDFS接收器。最佳答案我的理解是FlumeKafkachannel只能映射到单个主题，因为它同时生成和使用该特定主题的日志。查看Flume1.6.0的KafkaChannel.java中的代码，我可

水槽 channel section kafka hadoop flume flume-ng apache-kafka

hadoop - Spark Streaming 可以选择特定文件吗

我的程序不断从hadoop文件夹(例如/hadoopPath/)读取流。它从上述文件夹中挑选所有文件。我可以只为这个文件夹拍摄特定的文件类型吗(比如:/hadoopPath/*.log)我还有一个与Spark和流相关的问题:Issparkstreamingworkswithboth"cp"and"mv" 最佳答案几个小时以来，我一直在为同一个问题苦苦挣扎，虽然它看起来很简单，但我在网上找不到任何相关信息。最后，我找到了适合我的情况的解决方案。我把它放在这里是为了为遇到同样问题的其他人节省一些时间。假设您只想读取具有“path-to

Streaming hadoop section spark code apache-spark spark-streaming

【大数据】kafka

文章目录【后端目录贴】1.定义2.消息队列2.1使用消息队列的好处2.2消息队列的两种模式3.Kafka基础架构4.kafka使用4.1jar包下载(0.11.0.0版本)4.2部署5.Kafka架构深入5.1Kafka工作流程及文件存储机制5.1.1Kafka工作流程5.1.2Kafka文件存储机制5.2Kafka生产者5.2.1分区策略5.2.2数据可靠性保证5.2.2.1副本数据同步策略5.2.2.2ISR5.2.2.3ack应答机制5.2.2.4故障处理细节5.2.3ExactlyOnce语义5.3Kafka消费者5.3.1消费方式5.3.2分区分配策略5.3.3offset的维护【后

数据 kafka xff0c xff xff0 大数据 wpf

hadoop - 使用接收器和 WAL 的 Spark Kafka 集成

我正在阅读下面的Databricks博客https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html在解释sparkkafka集成如何使用接收器和WAl工作的过程时，它说1.TheKafkadataiscontinuouslyreceivedbyKafkaReceiversrunningintheSparkworkers/executors.Thisusedthehigh-levelconsumerAPIofKafka.2.Thereceiveddatai

hadoop Spark 偏移 section zookeeper apache-spark apache-kafka spark-streaming

hadoop - 只有一个文件从带有水槽的kafka到hdfs

我正在尝试通过水槽将数据从kafka放入hdfs。kafka_producer每10秒发送一条消息。我会在hdfs上的一个文件中收集所有消息。这是我使用的flume配置，但它在hdfs上存储了很多文件(一个用于消息):agent1.sources.kafka-source.type=org.apache.flume.source.kafka.KafkaSourceagent1.sources.kafka-source.zookeeperConnect=localhost:2181agent1.sources.kafka-source.topic=provaagent1.sources.

水槽 hadoop agent1 agent hdfs apache-kafka flume

【软件开发/设计】分布式架构中的组件（如Kafka、MongoDB和Nginx）如何进行容器化部署

【软件开发/设计】分布式架构中的组件（如Kafka、MongoDB和Nginx）如何进行容器化部署方式一容器化部署的一般步骤Nginx、MongoDB、Kafka容器化部署示例1.Nginx2.MongoDB3.Kafka容器化部署的优势方式二1.Nginx部署创建Deployment创建ServiceNginx和ConfigMap总结应用配置2.MongoDB部署创建StatefulSet创建ServiceMongoDB和ConfigMap应用配置3.Kafka部署使用Helm1.验证Kafka安装2.查看Helm安装的说明3.连接到Kafka4.使用Kafka5.Kafka客户端配置6.监

分布式容器 span class token 架构 kafka

hadoop - 使用 Spark Streaming 将非结构化数据持久化到 Hadoop

我有一个使用SparkStreaming创建的摄取管道，我想将RDD作为大型非结构化(JSONL)数据文件存储在hadoop中，以简化future的分析。将astream持久化到hadoop而不会产生大量小文件的最佳方法是什么？(因为hadoop不适合这些，而且它们使分析工作流程复杂化) 最佳答案首先，我建议使用可以像Cassandra一样处理这种情况的持久层。但是，如果您对HDFS死心塌地，那么themailinglisthasanansweralready您可以使用FileUtil.copyMerge(来自hadoopfs)A

结构化持久 section hadoop code apache-spark hdfs spark-streaming

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此，在每批处理中，我处理10.000条kafka消息。在这个批处理运行中，我通过从rdd中创建一个数据帧来处理每条消息。处理后，我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后，它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb，但只

流式 hadoop section import SQLContext apache-spark apache-kafka spark-streaming

85 86 878889 90 91