草庐IT

CLOUDERA

全部标签

java - 如何更新 "Practical Graph Analytics with Apache Giraph"示例以在当前 Cloudera Quickstart VM 上运行

我是Hadoop/Giraph和Java的新手。作为任务的一部分,我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书,名为“使用ApacheGiraph进行实用图形分析;作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”,我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然,书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行?原帖:运行

Hadoop 中的加密

我是Hadoop新手。我读到在名称节点和Hadoop之间交换了一些消息,数据节点定期将BlockReport消息发送到名称节点。我想知道这些BlockReport消息是否在ApacheHadoop中加密(我不是指像Cloudera这样的Hadoop的任何发行版)通信中是否有任何SSH加密? 最佳答案 默认情况下,ApacheHadoop没有加密或身份验证,尽管有一些选项可用。RPC消息可以使用SASL加密,并且可以使用Kerberos进行身份验证。较新的版本也可以选择使用SASL加密数据传输。有关详细信息,请参阅JIRA:https

hadoop - 我可以将 Hadoop 2.0.0-cdh4.5.0 与 Cassandra 2.0.5 一起使用吗?

我正在尝试将Hadoop2.0(特别是Cloudera4.5发行版)与Cassandra2.0.4数据库一起使用。在解决了一系列问题之后(例如确保Hadoop使用1.7jdk运行)我陷入了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterfaceorg.apache.hadoop.mapreduce.JobContext,butclasswasexpectedatorg.apache.cassandra.hadoop.AbstractColumnFamilyInputFormat.g

security - 启用安全性 PriviledgedActionException (auth :KERBEROS)) 后 Hadoop 服务未启动

我有一个版本5的Cloudera集群启用Hadoop安全后我遇到了一个问题Hadoop服务没有启动。我在YARN上遇到错误:PriviledgedActionExceptionas:mapred/cdh4hdm@IMP.CO.IN(auth:KERBEROS)cause:java.io.IOException:Couldn'tsetupconnectionformapred/cdh4hdm@IMP.CO.INtocdh4hdm/172.26.43.40:80203:23:49.298PMINFOorg.apache.hadoop.service.AbstractServiceServi

hadoop - 到 HBase 的 Flume 交易失败

我有一个Flume代理将推文写入HBase接收器。几秒钟后,到接收器的事务失败,每隔8-10秒我就会在Flume代理日志中收到这些错误消息,告诉我到HBase的事务失败。奇怪的是,一些推文仍然通过并进入HBase表。是什么原因造成的?这是在单节点ClouderaQuickstartVM上运行,会不会是资源问题?这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri

hadoop - 合并带有标题的两部分文件仅作为第一行 Hadoop

我如何将hadoop中的两个或多个部分文件合并为单个文件,合并输出具有完整数据,但只有一个标题位于合并输出的第一行。文件1column1|column2|column320000|newyork|john30000|sydney|joseph文件ncolumn1|column2|column360000|delhi|mike30000|sydney|joseph合并后的输出应该是column1|column2|column320000|newyork|john30000|sydney|joseph60000|delhi|mike30000|sydney|joseph有没有简单的方法使用

hadoop - Spark 独立模式 : Worker not starting properly in cloudera

我是spark的新手,在使用cloudera管理器中提供的包裹安装spark之后。我已经配置了以下来自clouderaenterprise的链接中所示的文件:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_spark_installation_standalone.html完成此设置后,我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.s

hadoop - Lily Hbase Indexers 无故退出

我正在运行Cloudera/Solr集群,并尝试使用hbase-solr(Lily)索引器将Hbase的NRT索引编入Solr。批处理模式索引工作正常。但是,在我开始以恒定流加载数据后,Lily索引器开始一个接一个地死掉。他们不会打印出向我跳出的特定错误消息,但都以相同的方式结束:2014-09-1016:04:56,770INFOorg.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper:Processidentifier=ip-172-31-1-204.ap-southeast-2.compute.internal,44013,14

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

我正在尝试在我使用他们提供的Spark-ec2脚本创建的Spark集群上运行我的Spark作业。我能够运行SparkPi示例,但每当我运行我的工作时,我都会收到此异常:Exceptioninthread"main"java.io.IOException:Calltoec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1107

hadoop - 根据时间戳从 Hive 访问 HBase 表数据

我通过提及默认版本10创建了一个HBasecreate'tablename',{NAME=>'cf',VERSIONS=>10}并插入两行(row1和row2)put'tablename','row1','cf:id','row1id'put'tablename','row1','cf:name','row1name'put'tablename','row2','cf:id','row2id'put'tablename','row2','cf:name','row2name'put'tablename','row2','cf:name','row2nameupdate'put'tabl