master-data-management

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master，另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

hadoop - 如何在 Ubuntu (12.0.4)-32 位上安装 cloudera manager

我有一个32位的Ubuntu版本，似乎最新的ClouderaManager只支持64位。有没有人在Ubuntu(12.0.4)32位上安装了CDH4和云时代管理器？。你能不能让我知道怎么做。最佳答案我相信32位Ubuntu不支持CDH4。32位RHEL6.2支持32位关于hadoop-如何在Ubuntu(12.0.4)-32位上安装clouderamanager，我们在StackOverflow上找到一个类似的问题： https://stackoverf

何在 cloudera section Ubuntu stackoverflow hadoop bigdata

mysql - 错误 : When running sqoop import command on master node

我已经配置了hadoop多节点集群。当我尝试在主节点中使用sqoop将表从mysql数据库导入到配置单元时，它抛出以下错误，sqoopimport--connectjdbc:mysql://master:3306/mysql--usernameroot--passwordadmin--tablepayment--hive-import----null-string'\\N'\--null-non-string'\\N'警告:/usr/lib/hcatalog不存在!HCatalog作业将失败。Pleaseset$HCAT_HOMEtotherootofyourHCataloginsta

command running java apache hadoop mysql

hadoop - 如何使用安装在 EC2 上的 Cloudera Manager 4.0 解析主机

任何人都可以提供ClouderaManager4.1免费版帮助说明在EC2中解析主机吗？我在EC2m1.large实例上安装了ClouderaManager4.1免费版。当我使用外部主机名(dn1.example.com)搜索主机时，它会正确显示并正确安装软件包。但是，经过检查，它没有出现。唯一出现的服务器是安装ClouderaManager的服务器(ip-#-#-#-136.ec2.internal)。我什至尝试在主机搜索中使用dn1的其他主机名(ec2-#-#-#-47.compute-1.amazonaws.com、ip-#-#-#-152.ec2.internal)。两者都安装

Cloudera Manager section hadoop

java - ERROR [main] master.HMasterCommandLine : Master exiting java. lang.RuntimeException: Master 构建失败

尝试使用HADOOP运行HBASE时出现以下错误HBASE0.98.xHADOOP2.4.0ERROR[main]master.HMasterCommandLine:Masterexitingjava.lang.RuntimeException:FailedconstructionofMaster:classorg.apache.had$atorg.apache.hadoop.hbase.util.JVMClusterUtil.createMasterThread(JVMCl$atorg.apache.hadoop.hbase.LocalHBaseCluster.addMaster(L

Master HMasterCommandLine apache hadoop hbase java

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序，它从Kafka接收HDFS上的文件路径，应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处，因为执行程序可能在任何节点上运行，而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件，同时保持数据局部性？谢谢，丹尼尔最佳答案我不确定你打开文件的意思，如果你能分享一些代码会很有帮助，但如果你使用的是sc.textFile，那是一个RDD转换。转换被集群管理器安排为任务，因此不一定会从运行DStream转换的执行器节点执行。

Streaming Locality section stackoverflow questions hadoop apache-spark spark-streaming

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

时出 Yarn-Client client current hadoop apache-spark hbase block hortonworks-data-platform

hadoop - 集群安装卡在cloudera manager中的 "installation in progress"

我已经在ubuntu操作系统中安装了Clouderamanager5.4版本。当我尝试使用cloudera管理器安装集群时，它卡住了“正在安装”，没有任何错误。我只能从/var/log/cloudera-scm-server/cloudera-scm-server.log中看到两个错误2015-05-1219:11:42,715ERRORmain:org.hibernate.engine.jdbc.spi.SqlExceptionHelper:ERROR:relation"cm_version"doesnotexistPosition:212015-05-1219:16:58,585E

installation amp section cloudera code hadoop cloudera-cdh

hadoop - 限制 Application Master 请求的资源的属性

HadoopMRv2(Yarn)中是否有一个属性允许我们专门操纵ApplicationMaster请求的资源量(VCores和堆内存)？或者ApplicationMaster会动态评估所需的资源(基于每个应用程序)并为容器请求相应的资源？最佳答案以下属性可用于为YARNApplicationmaster设置VCors和HeapMemory。yarn.app.mapreduce.am.resource.mb8192yarn.app.mapreduce.am.resource.cpu-vcores1yarn.app.mapreduc

Application hadoop section gt lt hadoop-yarn

hadoop - Data locality 概念是否也适用于 Reducers？

我的理解:数据局部性的概念仅适用于Mapper，因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念？数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时，Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性？最佳答案不，数据局部性概念仅适用于MAPPERS。Reducer是根据par

Reducers locality section strong hadoop mapreduce

93 94 959697 98 99