草庐IT

“1+X“大数据平台运维职业技能等级证书(中级)模拟题-Storm组件部署

目录一、前置说明二、Storm相关知识(必看,仅应对考试)三、Storm部署3.1、Zookeeper集群安装并启动3.2、解压Storm,并配置conf/storm.yaml3.3、启动storm集群3.3.1、前台运行3.3.2、挂载后台运行3.4、web查看一、前置说明这个是我自己电脑的环境,考试会变动环境表主机名IP地址masterNode1192.168.5.200slaveNode1192.168.5.201slaveNode2192.168.5.202简单操作比如解压、配置环境变量等就不写进来了,不会的自行百度二、Storm相关知识(必看,仅应对考试)段落节选自Zookeeper

java - Kafka和Storm如何实现 Multi-Tenancy ?

在Kafka和Storm环境下构建Multi-Tenancy应用程序的最佳实践是什么?例如:为每个租户创建主题并消费多主题喷口(使用通配符)。 最佳答案 我认为每个租户的主题都是正确的选择。命名约定可能是这样的:topic_base_name_tenant_id。原因是:它允许为每个租户灵活配置(就像前面提到的@Sebastian)。更清晰的逻辑分离。现在假设我们将使用不同的方法。例如,为每个租户分区。这可能有问题,因为:您将并行级别限制为租户数量。添加新租户,结果添加新分区→重新发布旧消息(默认分区算法为:message_key%

python - 在 apache spark/Storm 中运行 python 脚本

我有一个用python编写的算法(不兼容hadoop,即不是mapper.py和reducer.py),它在本地系统(不是hadoop)中运行完美。我的目标是在hadoop中运行它。选项1:Hadoop流式处理。但是,我需要将这个python脚本转换为mapper和reducer。还有其他办法吗?选项2:通过Storm运行此python脚本。但是,我使用的是没有Storm的cloudera。我需要在cloudera中安装storm或需要使用Spark。如果我在cloudera中安装storm。这是更好的选择吗?选项3:通过Spark(Cloudera)运行此python脚本。可能吗。此

java - 重启的namenode遭受 block 报告 Storm

当我们基于hadoopv2.4.1的standbynamenode故障重启时,发现namenode退出safemode后忙得无法及时响应。我们扔了好几堆,它们看起来都是这样的,Thread212(IPCServerhandler148on8020):State:WAITINGBlockedcount:66Waitedcount:598Waitingonjava.util.concurrent.locks.ReentrantLock$FairSync@60ea5634Stack:sun.misc.Unsafe.park(NativeMethod)java.util.concurrent.

hadoop - 无法在 HDP 2.2 沙盒上安装 Storm

当我从urlhttp://127.0.0.1:8080/访问HDP2.2沙盒虚拟机上的ambari仪表板时ambari服务显示所有带有“?”的服务。符号,包括Storm。当我尝试安装时,我无法在任何地方看到安装向导链接,如果我转到urlhttp://127.0.0.1:8080/#/installer/step0它返回到破折号。在教程中,他们只是打开仪表板,一切都已设置,但我无法启动我的Storm集群。提前致谢。 最佳答案 您不必安装任何东西。在服务(或主机)页面上,您应该找到一个操作按钮,可以让您停止然后启动所有服务。有时特定服务

java - 比较 Storm bolt 中的上一个和下一个元组

我有由Storm拓扑处理的实时数据。数据可以是四种类型,比方说A、B、C、D。这些数据中的每一种都由bolt以随机顺序使用。我需要做的是比较两个相同数据类型的元组。例如,我想将A型元组与下一个A型元组进行比较,或者说将当前A型元组与先前收到的A型元组进行比较。有没有办法在bolt中做到这一点?或者我必须将以前的结果保存在数据库中的某个位置(比如hbase或缓存)并查询它以与特定类型的当前元组进行比较。编辑假设A、B、C、D类型的数据流来自spoutB4A4C7D2A3A2B3C6D1B2C5C4B1C3C2C1A1----->Spout-->BOLT现在在bolt,我想比较A1和A2,

java - 未在 Storm UI 中创建 Storm 拓扑

当将Storm作业提交到Hadoop集群以使用hdfsbolt写入hdfs时,不会在StormUI中创建拓扑。显示错误是因为代码中使用了一些包(org.apache.storm.hdfs.bolt.AbstractHdfsBolt.cleanup(AbstractHdfsBolt.java:261)~[f083f1dc515311e9868bcf07babd3298.jar:?])。错误:42608[Thread-20-bolt-executor[33]]INFOo.a.s.util-Asyncloopinterrupted!42608[Thread-19-disruptor-exec

hadoop - "Storm"数据处理能力

对于我们每天必须处理最少“2-3TB”数据的业务用例,我正在对“Hadoop&Storm”进行分析。不用说,“Storm”看起来令人印象深刻,因为它处理传入大数据的效率很高,但我不确定“Storm”是否有足够的能力处理“TB”的数据,同时为我提供真实的-时间结果与否?谁能解释一下?谢谢,加金德拉 最佳答案 Storm由Twitter开发。他们每天用它处理超过8TB的数据。听起来这对你的情况应该足够了。Afaikstorm是用于分布式计算的最佳流/实时系统。hadoop不适合它,因为作业启动时间长,而且不是流数据的native处理。事

hadoop - 如何在 Java 中的 Storm Bolt 中使用 Hadoop FS API

我想将数据存储在由StormSpout发出的hdfs中。我在Bolt类中添加了hadoopFSAPI代码,但它在storm中抛出编译错误。以下是Stormbolt类:packagebolts;importjava.io.*;importjava.util.*;importjava.net.*;importorg.apache.hadoop.fs.*;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.uti

azure - 如何连接 Azure 机器学习和 Spark Streaming 或 Apache Storm

是否有可能将流从SparkStreaming或ApacheStorm获取到Azure机器学习中?在reader选项中有一个从Hive数据库读取数据的输入但是如何从Spark或Storm获取实时数据流,例如实时欺诈检测 最佳答案 我理解使用开源Storm或Spark来做到这一点的愿望。但我也想提供100%Azure解决方案,因为就我个人而言,我发现它是使用流数据快速完成许多“简单”事情的好方法。首先,我们有服务总线,它可以包含事件中心。事件中心是一个管理良好的队列,可以在其中将数据事件流式传输到云中。queue有暂停,rewind功能