草庐IT

apache-flume

全部标签

java - 如何更新 "Practical Graph Analytics with Apache Giraph"示例以在当前 Cloudera Quickstart VM 上运行

我是Hadoop/Giraph和Java的新手。作为任务的一部分,我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书,名为“使用ApacheGiraph进行实用图形分析;作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”,我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然,书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行?原帖:运行

hadoop - 以不同用户身份运行 Apache Zeppelin

如何以与启动该过程的用户不同的用户身份运行Zeppelin解释器?我想以“root”身份运行Zeppelin,然后以“admin”用户身份启动spark应用程序 最佳答案 您可以像当前一样继续运行Zeppelin,但以该管理员用户身份单独启动Spark进程。Spark解释器可以指向外部主机。打开Zeppelin解释器配置并更改spark主配置key的值,将其指向由管理员用户启动的实例。换句话说,你有一个spark进程:#Firstrunsparkasadmin:$/path/to/spark/sbin/start-all.sh#Th

apache - Hbase ipc.RpcServer responseTooSlow 问题和区域服务器关闭

我已经使用Hadoop2.7.4配置了Hbase1.2.6。我已经在上面配置了Nutch。以下是两个Hbase站点属性hbase.rpc.timeout1200000Changedto20minuteshbase.client.scanner.timeout.period1200000Changedto10minutes当我开始工作时。警告开始一段时间后,区域服务器关闭。这就是为什么Job也失败了。2017-12-2217:39:25,660WARN[B.defaultRpcServer.handler=18,queue=0,port=16020]ipc.RpcServer:(resp

apache - 构建 minioozie 时出现编译错误

我是oozie的新手,正在尝试安装minioozie来测试oozie中的工作流程。我尝试按照apache站点http://oozie.apache.org/docs/3.3.1/ENG_MiniOozie.html中的步骤进行操作我做了以下步骤:gitclonegit://github.com/apache/oozie.gitmvncleaninstall-DskipTests-DtestJarSimple-X上述语句因编译错误而失败。堆栈跟踪:[INFO]Compiling5sourcefilesto/Users/skreddy/oozie/sharelib/pig/target/t

hadoop - 我从哪里可以获得 Apache Hama-0.6.2 或旧版本的 HAMA?

任何人都可以向我提供apachehama0.6.2或更早版本的链接吗?我只在官方网站上获得0.6.3。但我需要早期版本 最佳答案 你可以在mavenrepo中找到它。http://search.maven.org/#search%7Cgav%7C1%7Cg%3A%22org.apache.hama%22%20AND%20a%3A%22hama-core%22 关于hadoop-我从哪里可以获得ApacheHama-0.6.2或旧版本的HAMA?,我们在StackOverflow上找到一个

hadoop - java.io.IOException :java. lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.io.Writable

尝试了一个从hive处理hbase中的表的示例。CREATEEXTERNALTABLE命令成功,但是select语句给出类转换异常环境:hive0.12.0,hbase0.96.1,hadoop2.2,Virtualbox上的Ubuntu12.04hive>SHOWTABLES;OKhbatablese_myhiveTimetaken:0.309seconds,Fetched:1row(s)hive>SELECT*FROMhbatablese_myhive;OK**异常失败java.io.IOException:java.lang.ClassCastException:org.apac

hadoop - 到 HBase 的 Flume 交易失败

我有一个Flume代理将推文写入HBase接收器。几秒钟后,到接收器的事务失败,每隔8-10秒我就会在Flume代理日志中收到这些错误消息,告诉我到HBase的事务失败。奇怪的是,一些推文仍然通过并进入HBase表。是什么原因造成的?这是在单节点ClouderaQuickstartVM上运行,会不会是资源问题?这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri

apache - Hbase Master 和 Region 服务器无法启动

Hadoop在分布式模式下成功运行。在分布式模式下启动HBase时出现以下错误。尝试了hbase-site.xml配置中的所有内容。不知道如何处理这个问题?014-03-1013:55:42,493INFOorg.apache.zookeeper.ClientCnxn:Openingsocketconnectiontoserverip-112-11-1-111.ec2.internal/112.11.1.111:2181.WillnotattempttoauthenticateusingSASL(Unabletolocatealoginconfiguration)2014-03-101

hadoop - Flume 通过网络获取日志

我一直在Flume工作,将日志从服务器计算机提取到HDFS。如果服务器和客户端机器连接在同一个网络中,我就能实现这一点。但是,如果服务器和客户端位于不同的网络中,我该如何实现相同的目标。我需要为此编写自定义源代码吗?[刚刚检查了来自cloudera的twitter示例,他们在其中使用自己的自定义源来获取twitter推文。]如有任何帮助,我们将不胜感激。谢谢,卡莱 最佳答案 如果你有一个多宿主主机加入两个你想传送的非对话网络,你可以有一个水槽代理在那里运行来桥接来自一个网络的日志并将其传递到另一个网络。因此,您的多宿主主机将充当一种

hadoop - Flume + HDFS-200 追加

页面https://cwiki.apache.org/confluence/display/FLUME/Getting+Started说HDFSsink支持附加,但我没能找到任何关于如何启用它的信息,每个示例都在滚动文件上。因此,如果可能的话,我将不胜感激有关如何使水槽附加到现有文件的任何信息)更新可以将所有滚动属性设置为0,这将使flume写入单个文件,但它不会关闭文件并且新记录对其他进程不可见。有个题目和我的差不多:FlumeNGandHDFS,Dmitry说Flume不支持追加,但答案是一年前的,文档说的恰恰相反,所以我想也许flume得到了改进,或者我误解了什么,任何线索都将不