集群NoSQL

hadoop - cludera数据库被删除如何恢复cludera集群？

不小心删除了存储在clouderaserverDBData文件/var/lib/我已经放弃使用恢复软件恢复数据了。如果有什么方法可以启动cloudera，或者我是否只能安装cloudera并向其注册hadoop组件，请告诉我。非常感谢任何帮助。最佳答案您无能为力。您必须重新安装并重新配置集群。您可能能够恢复存储在HDFS上的数据。此外，您可以备份存储在/var/run/cloudera-scm-agent/process/中的集群配置以供以后引用。关于hadoop-cludera数

windows - 在 Windows 上设置单节点 hortonworks hadoop 集群

我按照Hortonworks上的教程设置了单节点集群。但是，我没有找到任何指南来告诉我如何完成那些红色部分，例如附加组件RangerPolicyAdmin等谁能告诉我如何安装这个？谢谢最佳答案它通过未经检查的安装附加组件解决关于windows-在Windows上设置单节点hortonworkshadoop集群，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/32957880/

hortonworks windows section stackoverflow image hadoop hortonworks-data-platform

Hadoop 多主集群设置

我们有一个包含2个主节点和1个从节点的Hadoop设置。我们已经配置了Hadoop集群。配置后，当我们执行“jps”命令时，我们在我的主节点上得到以下输出:13405NameNode14614Jps13860ResourceManager13650DataNode14083NodeManage在我的第二个主节点上，输出是:9698Jps9234DataNode9022NameNode9450NodeManager在我的数据节点上，输出是:21681NodeManager21461DataNode21878Jps我觉得我的辅助节点没有运行。请告诉我这是对还是错。如果错了，我的节点应该是什

Hadoop 多主 section code pre

hadoop - 如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量？

我设置了一个HortonworksHadoop集群:Hortonworks版本为2.3.2。1个NameNode，1个辅助NameNode，10个DataNodeSpark1.4.1并部署在所有数据节点上。YARN已安装。当我运行一个spark程序时，执行器只在4个节点上运行，而不是在整个数据节点上运行。如何估算此类Hadoop集群上的spark执行器数量？最佳答案你请求的执行者数量默认是4个，如果你想请求更多，你必须在命令行调用--num-executors=x参数或者设置spark.executors.instances在配

Hortonworks hadoop section spark apache-spark hadoop-yarn hortonworks-data-platform

hadoop - 同一 HBase 集群内的随机读取和扫描

我们有这样的情况，我们为以下目的托管数据:MapReduce/Spark作业(通过顺序读取访问磁盘)随机读取。(通过搜索访问的磁盘)都在同一个集群/表中。使用YARN，我们可以管理CPU和RAM等资源，但在密集扫描期间，HDD可能成为瓶颈，并可能降低随机读取性能。如何管理该资源通常如何处理这种情况？最佳答案由于mapreduce一般不需要活数据，所以人们经常对hbase表进行备份，在备份的数据表上运行mapreduce。或者做一个表的快照并运行mp。在上面。关于hadoop-同一H

hadoop HBase section stackoverflow mapreduce hadoop-yarn

performance - 如何做Hadoop集群的负载和性能测试？

是否有任何工具可以生成具有预定义的用户请求增加(运行相同的map-reduce作业)并监控负载下Hadoop集群的某些特定指标的自动化场景？我正在寻找类似LoadRunner的东西但免费/开源工具。该工具不一定要有很酷的用户界面，而是能够记录和保存场景，其中包括供多个用户使用的加速和会合点(等到其他用户到达某个点并同时执行某些操作)。我要测试的Hadoop发行版是最新的MapR。搜索互联网并没有为HPLoadRunner带来任何好的免费替代品。如果您有Hadoop(或特别是MapR)负载测试的经验，请分享您使用的工具。最佳答案您

performance Hadoop section 的 LoadRunner load performance-testing mapr

Hadoop MapReduce 生成的输出仅包含集群上的最后一个条目

我有一项工作是计算推文中的主题标签词，然后显示最常用的15个。当从测试类进行本地测试时，它运行完美，但在集群上它只给出最后计算的条目作为结果。映射器publicclassHashtagMapperextendsMapper{privatestaticfinalIntWritableONE=newIntWritable(1);privateTextword=newText();@Overridepublicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stri

条目 MapReduce Text new DoubleWritable hadoop

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

我已经使用Spark部署了一个AmazonEC2集群，如下所示:~/spark-ec2-kspark-i~/.ssh/spark.pem-s2--region=eu-west-1--spark-version=1.3.1launchspark-cluster我先将我需要的文件复制到master，然后从master复制到HDFS，使用:ephemeral-hdfs/bin/hadoopfs-put~/ANTICOR_2_10000.txt~/user/root/ANTICOR_2_10000.txt我有一个我想运行的jar，它是用JDK8编译的(我使用了很多Java8特性)所以我用scp

spark-ec hadoop code spark section amazon-ec2 apache-spark spark-ec2

hadoop - 在驻留在不同数据中心的多个 Hadoop 集群之间复制数据

我想知道将数据中心DC1的Hadoop集群H1中存在的数据复制到数据中心DC2的另一个Hadoop集群H2的最佳方法是什么(最好是热备份)。我知道Hadoop进行数据复制，创建的数据副本数由hdfs-site.xml中设置的复制因子决定。我有几个与此相关的问题将一个集群的数据节点分布在两个数据中心是否有意义，以便H1的数据节点同时出现在DC1和DC2中。如果这有意义且可行，那么是否意味着我们不需要H2？将名称节点和数据节点分布在两个数据中心而不是仅将数据节点分布在两个数据中心是否有意义？我还听说有人使用distcp，许多工具都建立在distcp之上。但是distcp会进行惰性备份，并且

数据中心留在 section distcp hadoop disaster-recovery

scala - Yarn 集群模式下 Spark 作业的 ClassNotFoundException

所以我试图在通过Oozie工作流启动的Yarn-cluster模式下运行Spark作业，但遇到了以下错误(下面的相关堆栈跟踪)java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atorg.apache.phoenix.exception.SQLExceptionCode$Factory$1.newException(SQLExceptionCode.java:388)atorg.apache.phoenix.exception.SQLExceptionInfo.buildException(SQLExce

ClassNotFoundException scala java ConnectionQueryServicesImpl apache hadoop apache-spark hadoop-yarn apache-phoenix

274 275 276277278 279 280