草庐IT

kafka-stream

全部标签

hadoop - 如何在hadoop集群中安装kafka

我想在包含1个主节点和4个数据节点的ubuntuHadoop集群上安装最新版本的Kafka。这是我的问题:ShouldkafkabeinstalledonallthemachinesoronlyonNameNodemachine?Whataboutzookeeper?ShoulditbeinstalledonallthemachinesoronlyonNameNodemachine?请分享在Hadoop5节点集群中安装kafka和Zookeeper所需的文档 最佳答案 架构严格基于您的要求和您所拥有的:您的机器有多强大,它们需要处理

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录?说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等 最佳答案 我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取,我们在StackOver

Kafka怎么保证消息发送不丢失

前言Kafka发送消息是异步发送的,所以我们不知道消息是否发送成功,所以会可能造成消息丢失。而且Kafka架构是由生产者-服务器端-消费者三种组成部分构成的。要保证消息不丢失,那么主要有三种解决方法:生产者(producer)保持同步发送消息服务器端(broker)持久化设置为同步刷盘消费者(consumer)设置为手动提交偏移量(offset)1.生产者(producer)端 处理生产者默认发送消息代码如下:importorg.apache.kafka.clients.producer.Producer;importorg.apache.kafka.clients.producer.Kafk

hadoop - 使用 Kafka 加载 HDFS 有哪些选项?

在当前技术领域,使用ApacheKafka加载HDFS的选项/解决方案有哪些?我在这里寻找Kafka消费者端的选项。还在寻找每天至少扩展到几TB的东西。我还有一些基本要求:a)HDFS的输出应该是分区的。b)Kafka上的记录可能不严格按时间顺序排列,但输出应该(尽可能)按时间顺序排列。c)在系统中断(网络分区、sw/hw崩溃等)的情况下可靠我浏览了StackOverflow,但许多问答都已过时。因此这个问题。 最佳答案 在ConfluentHDFSConnector之前,有一个名为Camus的产品,您仍然可以在LinkedInGi

hadoop - 是否有一个好的库可以帮助使用 Hadoop Streaming 和 Python 链接 MapReduce 作业?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭去年。ImprovethisquestionThis问题回答了我的部分问题,但不完全。我如何运行管理它的脚本,它来self的本地文件系统吗?MrJob或Dumbo之类的东西究竟在哪里出现?还有其他选择吗?我正在尝试运行K-Means,其中每次迭代(MapReduce作业)输出将作为HadoopStreaming和Python下一次迭代的输入。我没有太多经验,任何信息都可以帮助我完成这项工作。谢谢!

java - 如何捆绑自定义 hadoop-streaming.jar

我正在尝试通过Yelp的EMRMrJob工具使用CombineFileInputFormat类。作业流是使用hadoop流创建的,MrJob的文档指出CombineFileInputFormat类必须捆绑在自定义的hadoop-streaming.jar中。有关上下文,请遵循此question.具体来说,我的问题是:具体类CombinedInputFormat.class应该在hadoop-streaming.jar中的什么地方被捆绑或引用?我尝试通过将CombinedInputFormat.class添加到目录org/apache/hadoop/streaming并执行来捆绑它:ja

java - 如何将字节数组写入和读取到 DataInput 和 DataOutput Stream

Hbase充当我的Mapreduce作业的源和接收器。我已经编写了名为(vectorwritable)的自定义可写类,它有两个字段。privateDoubleVectorvector;//ItisaDoubleArrayprivatebyte[]rowKey;//TherowkeyoftheHbase我的映射器将它作为它的值发出,因此我在我的vectorWritable类中实现了写入和读取方法@Overridepublicfinalvoidwrite(DataOutputout)throwsIOException{writeVectorCluster(this.vector,this.

3、Kafka 线上集群部署方案怎么做?

文章目录1、操作系统的选择1.1、I/O模型的使用1.2、数据网络传输效率1.3、社区支持度2、磁盘的选择3、磁盘容量的规划3.1、举例思考本问题:3.2、计算一下:3.3、规划磁盘容量时你需要考虑下面这几个元素:4、带宽规划4.1、计算总结1、操作系统的选择对比Linux、Mac、Window,Linux系统显然要更加适合部署Kafka。主要有下面这三个方面,Linux的表现更胜一筹。1.1、I/O模型的使用主流的I/O模型通常有5种类型:阻塞式I/O、非阻塞式I/O、I/O多路复用、信号驱动I/O和异步I/O。通常情况下我们认为后一种模型会比前一种模型要高级。相关实现场景,比如Java中S

hadoop - Spark Streaming - HBase 批量加载

我目前正在使用Python将CSV数据批量加载到HBase表中,目前我在使用saveAsNewAPIHadoopFile编写适当的HFile时遇到了问题我的代码目前如下所示:defcsv_to_key_value(row):cols=row.split(",")result=((cols[0],[cols[0],"f1","c1",cols[1]]),(cols[0],[cols[0],"f2","c2",cols[2]]),(cols[0],[cols[0],"f3","c3",cols[3]]))returnresultdefbulk_load(rdd):conf={#Ommitt

scala - 使用 Spark Streaming 读取 fileStream

我在HDFS上有一个目录,其中每10分钟复制一个文件(现有文件被覆盖)。我想使用Spark流(1.6.0)读取文件的内容,并将其用作引用数据以将其加入其他流。我将“记住窗口”spark.streaming.fileStream.minRememberDuration设置为“600s”并设置newFilesOnly到false,因为当我启动应用程序时,我不想从已经存在的HDFS中获取初始数据。valssc=newStreamingContext(sparkConf,Seconds(2))defdefaultFilter(path:Path):Boolean=!path.getName()