草庐IT

cluster-manager

全部标签

scala - 使用 Hivecontext,在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表,在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象,并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本,我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时,我无法做到,当我创建一个Hive表时,它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

hadoop - Datanodes 处于事件状态,但我无法将文件复制到 HDFS [Hadoop 2.6.0 - Raspberry Pi Cluster]

我一直在使用RaspberryPis开发Hadoop集群,只是出于学习目的。我已经成功配置了所有的奴隶和主人(据我所知)。问题:HDFS无法复制本地文件。并根据http://Master:8088我有3个事件节点。(我在最后附上了截图)但是当我尝试将本地文件复制到HDFS时,出现以下异常:16/01/1206:20:43WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/LICENCE.txt._COPYING_couldonlyb

hadoop - N 个 hadoop 节点中哪个节点正在运行 Cloudera Manager?

我有一个大型hadoop集群(24个节点)。我可以通过CLI访问这些节点。前几个没有运行ClouderaManager(cloudera-scm-server)。如何找出哪个节点正在运行ClouderaManager?感谢任何帮助。 最佳答案 ClouderaManager将有两个服务。一个是服务器,另一个是代理。正如您所说,您可以通过CLI访问所有节点。因此,在所有节点上运行以下命令以查找哪个是服务器并打开(服务器将仅在一台机器上运行)sudoservicecloudera-scm-serverstatus另一种简单的查找CDHS

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2,它在ClouderaManager中看起来没问题,直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作,我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

hadoop - 运行 sqoop 导入时出错 - ERROR manager.OracleManager : Failed to rollback transaction

我正在使用sqoop将数据从oracledb加载到hive规范:CDH-5.5.1Sqoop1.4.2初始化:exportSQOOP_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoopexportHIVE_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/hiveexportHADOOP_CLASSPATH=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoop/lib/ojdbc7.

java - Cloudera Manager 4.0 字数统计示例

我安装了ClouderaManager并将2个节点连接到一个主节点。我正在尝试使用cloudera在此链接提供的教程运行wordcount程序:https://ccp.cloudera.com/display/SUPPORT/Hadoop+Tutorial#HadoopTutorial-InputsandOutputsCloudera说要编译我在命令提示符下使用nano创建的WordCount.java文件。我创建了目录Wordcount_Classes并将wordcount.java文件放在那里。我不知道是否应该将该目录移动到cloudera目录之一的某个位置以使java代码工作?或

hadoop - AWS EC2 - Cloudera Manager - 停止实例

我已经使用cloudera管理器在AmazonEC2上设置了hadoop集群。Cloudera管理器创建了两个实例,并且都按预期工作。我试图通过AWS控制台停止cloudera创建的实例,但没有停止选项。我们只有“终止”和“重启”。我不想终止这些实例,因为我想重用这些实例。如何停止这些实例? 最佳答案 由于您的实例来自实例存储支持的AMI,您将只能重启和终止实例。查看“根设备”下的管理控制台以确认情况是否如此。要解决此问题,您可以从您的实例创建一个AMI,然后使用新的AMI重新启动您的环境,这样您就可以选择停止您的实例。

hadoop - 通过 Cloudera Manager 4.5 安装 Hadoop 后 HDFS 仅指向本地文件系统

安装ClouderaManager4.5后,我发现它没有配置为指向正确的默认文件系统。如果我从其中一个tasktracker/datanode框运行haddopfs-ls/,我只会得到本地文件系统。但是当我在cloudera中检查core-site.xml时,我看到了这个设置,这似乎是正确的:fs.defaultFShdfs://hadoop-namenode1:8020知道我应该在这里寻找什么吗?davidparks21@hadoop-reducedslot2:~$hadoopfs-ls/Found22itemsdrwxr-xr-x-rootroot40962013-04-1213:

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client?

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

hadoop - 如何从 Cloudera Manager REST API 获取事件名称节点主机名?

我能够访问Cloudera管理器restAPI。curl-uusername:passwordhttp://cmhost:port/api/v10/clusters/clusterName如何找到事件的namenode和resourcemangarer主机名?我无法从API文档中找到任何相关内容。http://cloudera.github.io/cm_api/apidocs/v10/index.html注意:集群配置高可用 最佳答案 您需要使用此端点:http://cloudera.github.io/cm_api/apidocs