vm-cdh-cluster

mysql - MySQL Cluster 之上的 Hive 层

免责声明:我是Hadoop和Hive的新手。我们搭建了一个存储海量数据的MySql集群(7.2.5版本)。行数达到数百万，并根据Mysql的自动分片逻辑进行分区。尽管我们正在利用Cluster7.2的自适应查询本地化(AQL)，但我们的一些查询有多个连接并且会运行几分钟甚至几个小时。在这种情况下，我可以使用Hive和Hadoop一起查询数据库并检索数据吗？它会使查询更快吗？它是否复制其文件系统中的数据？这种方法的优缺点是什么？我的意图是使用Hive作为MySQLCluster之上的一个层，并使用它来读取/写入MySQLClusterDB。我的申请中没有任何交易。那么这真的可能吗？

hadoop - 将 Akubra-HDFS 与 Cloudera CDH4 结合使用

我正在尝试使用Akubra-HDFS作为fedoracommons的低级存储服务器。我遵循了类似于installationofIRODS的程序设置Akubra-HDFS。fedora服务器使用Hadoop(版本1.0.4)作为其存储。但是，我在将Akubra-HDFS库与ClouderaCDH4/ApacheHadoop2.0.3alpha-高可用性(HA)发行版一起使用时遇到了问题。我想分享我的发现。最佳答案由于AKubra-HDFS是一个新的实验性库，互联网上关于它的资源并不多。我必须通过尝试不同的依赖jar来找出解决方案。

Akubra-HDFS Cloudera section li jar hadoop storage hdfs fedora-commons

hadoop - pig 加入Cloudera VM

我尝试在apachepig中执行一个简单的连接。我使用的数据集来自http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html这是我在pig壳里做的:profiles=LOAD'/user/hadoop/tests/userid-profile.tsv'AS(id,gender,age,country,dreg);songs=LOAD'/user/hadoop/tests/userid-timestamp-artid-artname-traid-traname.tsv'AS(userID,timest

Cloudera hadoop MapReduceLauncher executionengine mapReduceLayer nosql apache-pig

hadoop - CDH伪集群启动Jobtracker和Tasktracker失败

当我尝试在R中执行mapreduce并且未能与JT和TT通信时，我注意到了这个问题。这是在我更改了一些配置文件后发生的，但不幸的是，我忘记了如何将其更改回来(我的错)!!1)JT日志:2013-08-0515:14:09,335INFOorg.apache.hadoop.mapred.JobTracker:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingJobTrackerSTARTUP_MSG:host=rhadoop/172.16.1.39STA

Tasktracker Jobtracker hadoop lib mapreduce

hadoop - Cloudera CDH4 上的 Accumulo - 启动组件时拒绝访问

我有一个使用ClouderaCDH4Hadoop和MapReducev1启动并运行的小型集群。Namenode/SecondaryNamenode/Jobtracker都在不同的机器上。我的三台服务器也充当Zookeeper服务器。我正在尝试在此集群上安装Accumulo1.4.4。我在Accumulo1.5.0中得到了相同的行为。我能够bin/accumuloinit并初始化Accumulo，但启动各个组件失败。我正在尝试让我的Namenode成为Accumulo主机。bin/start-server.shlocalhostmonitor吐出一个非常令人鼓舞的Startingmoni

Cloudera Accumulo java apache hadoop

hadoop - CDH5 Hue Hive — 蜂蜡服务器 : Error opening session: Failed to validate proxy privilage of hue for admin

我通过Kerberos设置了一个具有安全性的Hadoop集群，Hive已经启用了Sentry。我对Hue-Hive(Beeswax)Editor有疑问。Hue无法在hive-server2日志中加载来自hive的数据和信息:2014-04-0311:36:39,814WARNthrift.ThriftCLIService(ThriftCLIService.java:GetSchemas(364))-Errorgettingcatalogs:org.apache.hive.service.cli.HiveSQLException:InvalidSessionHandle:SessionH

privilage validate java ThriftCLIService apache hadoop hive hue apache-sentry

hadoop - 如何知道 yarn cluster 中可用的 reducer 插槽容量

我正在从Hadoop1.0迁移到支持YARN的集群。在1.0中运行临时作业时，我们过去常常根据作业跟踪器中报告的可用性指定reducer的数量，以加快处理速度。现在，在YARN的“所有应用程序”Web链接中，我们看不到任何此类有关可用性的列/信息。是否有任何配置文件或在网络链接中我们可以获得此信息？最佳答案 Yarn中没有更多的插槽。相反，一切都取决于使用/需求的内存量。您可以配置yarn.nodemanager.resource.memory-mb和yarn.nodemanager.resource.cpu-vcores来控制任

cluster reducer section hadoop yarn hive apache-pig hadoop-yarn

hadoop - 在 ubuntu 12.04 LTS 中使用 cloudera manager 安装 Cloudera CDH5

我正在尝试在Ubuntu12.04LTS(64位)中使用ClouderaManager安装CDH5。我正在按照Clouderalink中提到的步骤进行操作.我无法为安装CDH5指定正确的主机名。除了/etc/hosts文件中的127.0.0.1和127.0.1.1之外，我没有任何其他条目。我正在使用USB加密狗访问互联网，但我现在没有任何以太网连接。请告诉我是否需要以太网连接才能在我的PC中安装CDH5。附言我目前是一名大型机开发人员，没有任何Linux或开源背景。我花了将近40个小时的时间试图在我的机器上安装CDH5，以便我可以进行Udacity'sIntroductiontoHad

Cloudera section CDH5 hadoop ubuntu-12.04 cloudera-cdh cloudera-manager

hadoop - CDH 5.4.4 Sqoop 2 作业开始但从未运行

ClouderaCommunityPost在Cloudera5.4.4中使用Hue，当尝试运行Sqoop2作业时，它显示(i)Thejobisstarting...但它从未真正运行该作业。我在工作浏览器中看不到任何内容，在工作的SUBMISSIONS列表中也看不到任何内容。我在日志中也没有看到任何错误。这是在现有的Cloudera5.4.4(QuickStartVM)上，我假设所有组件都已正确预配置。不幸的是，我所要做的就是缺少错误消息和有用的报告。最佳答案在CDH5上，sqoop2服务器确实在/var/log/sqoop2/s

从未 hadoop apache java org sqoop cloudera-cdh hue sqoop2

scala - Zeppelin 集群模式不适用于 spark 1.2 Ambari、Hortonworks Cluster

我正在尝试部署一个集群并在其上运行一些示例Spark/scala代码，虽然当我在独立模式下使用默认参数使用zeppelin时一切正常，但我无法让它在集群模式下工作。我尝试在spark中使用spark-class和start-master标准shell文件手动创建spark集群，然后通过spark://..Zeppelin的URL，但是在运行代码后，我不断收到不同的异常错误(例如缺少javasys.process._库)，一段时间后，sparkworker的状态在SparkMasterUI中变为DEAD我还尝试将yarn-client而不是spark-URL放入zeppelinspark

Hortonworks Zeppelin section spark scala hadoop apache-spark ambari apache-zeppelin

74 75 767778 79 80