cluster-manager

hadoop - Hive managed table drop 不会删除 HDFS 上的文件。任何解决方案？

从hive中删除托管表时，它与hdfs中的关联文件不会被删除(在azure-databricks上)。我收到以下错误:[Simba]SparkJDBCDriverERRORprocessingquery/statement.ErrorCode:0,SQLstate:org.apache.spark.sql.AnalysisException:Cannotcreatethemanagedtable('`schema`.`XXXXX`').Theassociatedlocation('dbfs:/user/hive/warehouse/schema.db/XXXXX)alreadyexis

hadoop - Cloudera 5.4.4 Cluster - 获取聚合使用指标

我想从Cloudera5.4.4Hadoop集群收集汇总使用指标。我心目中的一些指标如下:集群每天/每周的平均CPU利用率Hadoop上运行时间最长的n个作业/查询最常使用集群的前n个用户(按利用率、提交的作业数)集群磁盘使用率与磁盘容量集群磁盘使用量随时间增长是否有任何API/资源/工具等我可以用来开始这个？我不认为我完全确定从哪里开始。任何起点将不胜感激。另外，请分享您在集群使用指标方面的经验(如果有的话)。提前致谢! 最佳答案 Ganglia是一个用于大型集群的开源、可扩展的分布式监控系统。它收集、汇总并提供数十个与机器相关的

Cloudera Cluster section Ganglia Hadoop cloudera-cdh cloudera-manager

java - 错误 : java heap space on Google Data-Proc Cluster

我在Googledataproc集群上从一个表运行Hive插入覆盖查询13783531记录到另一个分区表，不做任何转换。失败并出现错误DiagnosticMessagesforthisTask:Error:JavaheapspaceFAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduceJobsLaunched:Stage-Stage-1:Map:34CumulativeCPU:1416.18secHDFSRead:6633737937HDFSWrite:0FAI

java Data-Proc code section pre hadoop hive google-cloud-platform google-cloud-dataproc

hadoop - Cloudera Manager 和 hdfs-site.xml

使用ClouderaManager时，我可以通过以下方式访问hdfs-site.xml文件:ClouderaManager>Cluster>HDFS>Instances>(NameNode，例如)>Processes配置文件>hdfs-site.xml然后URL指向:http://quickstart.cloudera:7180/cmf/process/8/config?filename=hdfs-site.xml这个文件是否可以通过文件系统直接访问，如果可以，它位于何处最佳答案 ClouderaManager中设置的配置存储在C

hdfs-site Cloudera section hadoop hdfs cloudera-manager

Hue 中的 hadoop.hdfs_clusters.default.webhdfs_url 错误

任何人都可以帮我解决这个色调错误。Currentvalue:http://localhost:50070/webhdfs/v1Failedtocreatetemporaryfile"/tmp/hue_config_validation.15785472045199379485"仅供引用，我使用的是ClouderaManager5.1.3和Hue3.6。最佳答案好的，我自己解决问题。错误原因是NameNode处于安全模式。此命令将使您的Namenode离开安全模式。sudo-uhdfshdfsdfsadmin-safemodele

hdfs_clusters webhdfs_url section hadoop hdfs hue

hadoop - Cloudera Cluster 安装过程出错？

我已经成功安装了Cloudera管理器。它显示Currentlymanagedhosts为127.0.0.1并且它是事件的。当我在加载后使用cloudera管理器搜索和安装集群时，它显示以下错误。Installationfailed.Failedtoreceiveheartbeatfromagent.Ensurethatthehost'shostnameisconfiguredproperly.Ensurethatport7182isaccessibleontheClouderaManagerserver(checkfirewallrules).Ensurethatports9000a

Cloudera Cluster code section noreferrer hadoop cluster-computing apache-pig hadoop-streaming

java - Spark Yarn Cluster 连接到 Hbase 错误

我有一个应用程序可以解析vcf文件并将数据插入到hbase中。该应用程序在使用masterlocal时运行，使用apachespark没有问题，但是当我使用apachesparkyarncluster运行它时，出现以下错误:17/03/3110:36:09INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(state:RUNNING)17/03/3110:36:10INFOyarn.Client:Applicationreportforapplication_1490344846293_0020(stat

Cluster Spark apache SparkSubmit java hadoop apache-spark hbase hadoop-yarn

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

我已经按照教程为Windows设置了ApacheHadoop，可以找到here.我现在遇到Datanode、ResourceManager和Yarncmd窗口的问题，显示打开后所有3秒都关闭，只有Namenode继续运行。这是我到目前为止尝试过的过程:以管理员身份运行CMD使用命令start-all.cmd(这会打开Namenode、Datanode、Yarn和Resourcemanagercmd窗口)Datanode、Yarn和Resourcemanager几乎都在启动后立即给出关闭消息SHUTDOWN_MSG:正在thood-alienware/...关闭ResourceManag

Datanode Resource section code hadoop hdfs disk

hadoop - 我是否必须在所有节点中运行历史服务器才能在 Hadoop Cluster WebUI 中获取作业历史记录

我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器，以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器，HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo

有节点中 gt lt property hadoop hadoop2 bigdata

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序，但我不太明白为什么它会起作用。当初我实现UDTF的时候，Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错，所以我还是实现了它。我在那个方法里放了一个变量初始化，猜测init只做一次。该jar适用于一些更简单的场景，但如果我要将UDTF输出与UDF一起使用，则使用UDF输出来做一些事情，例如作弊的clusterby或insert，我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中，使用if检查变量是否为null，

cluster hadoop code section hive

74 75 767778 79 80