我正在使用ClouderaVM(cdh3u2)作为模拟的分布式文件系统。为了从Web服务器执行文件创建和写入,我更改了fs.http.address属性以指向VMIP。此功能工作正常。当HIVE执行类似mapreduce的作业时,问题就出现了SELECTCOUNT(*)FROMtmp2;我得到的信息是:hive>selectcount(*)fromtmp2;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadfora
我正在尝试使用Ganglia监控Hbase。如何使用cloudera管理控制台编辑hadoop-metrics.properties中的dfs.server属性?根据http://wiki.apache.org/hadoop/GangliaMetrics我需要更改:dfs.servers=@GANGLIA@:8649但是我在cloudera的管理控制台上看不到修改dfs.server值的选项。我应该如何进行?dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31mapred.class=org.apache.hadoop
尝试安装ClouderaManager。在hadoop主机中的步骤自动安装失败。Error:InstallingJDKpackage...BEGINyuminfojdkLoadedplugins:fastestmirrorLoadingmirrorspeedsfromcachedhostfile*base:archive.cs.uu.nl*extras:archive.cs.uu.nl*updates:mirror.fraunhofer.dehttp://archive.cloudera.com/redhat/cdh/3/repodata/repomd.xml:[Errno4]IOEr
我有一个关于clouderacdh4分发上下文中提到的两个服务器的基本问题这两个是否可以互换/替换,例如您可以运行蜂蜡来代替hive服务器吗?我正在尝试使用thrift客户端进行连接,但在我的设置中,只有蜂蜡在运行,而不是hive服务器。在这种情况下,我可以连接到蜂蜡服务器吗? 最佳答案 HiveServer是默认进程,而Beeswax是一个较新的进程,旨在更好地支持并发并使用Kerberos提供身份验证。您应该运行其中之一。是的,您绝对应该能够使用Thrift连接到beeswax。您可以找到Beeswax和Hive服务器的客户端h
我在CDH4.2.0-1.cdh4.2.0.p0.10集群上的ClouderaManager4.5中通过包裹安装了Impala。当我尝试启动服务时,它在所有节点上都失败并显示此消息perl-pi-e's#{{CMF_CONF_DIR}}#/run/cloudera-scm-agent/process/800-impala-IMPALAD#g'/run/cloudera-scm-agent/process/800-impala-IMPALAD/impala-conf/impalad_flags'['impalad=impalad']'exec/opt/cloudera/parcels/I
我使用mysql在RHEL5上使用远程元存储设置Hivecdh4。我在mysql中创建了一个与hive-site.xml同名的数据库。我启动了Metastore服务器和Hive服务器,但每当我尝试查询Hive时,它都会抛出一个错误NoSuchFieldError:METASTORETHRIFTRETRIES。我认为我无法连接到Metastore服务器或thrift服务器,这是导致此问题的原因。请为我指明正确的道路。 最佳答案 您是否从$HIVE_HOME/scripts/metastore/upgrade/mysql运行Hive
我发现hadoopcdh4有一个奇怪的行为。在所有映射器完成之前,一些reducer已经完成。我认为所有的reducer(调用reduce())都必须等到映射器完成。这是一个hadoop错误吗?在他们的某些情况下,工作可能会以这种状态结束吗?我在这里缺少什么? 最佳答案 有时,当作业趋于失败时,您会看到HadoopUI出现奇怪的行为。我认为你看到这个是因为你有一个任务失败或者可能更多,这是一些未能在UI中反射(reflect)出来。可能是由于tasktracker和jobtacker或内部计算之间的网络通信有些延迟(我不是很确定)。
我有PentahoMapReduce作业(基本上是Java作业),它将HBase数据作为map输入。工作流非常适合少量数据(例如100行数据),但在几十万条记录上运行时会失败。两个映射器作业被提交到集群,它们正在做简单的数据聚合(大约400000行在两个HBase区域中分开)。它接缝任务无法在600秒内报告其状态,这是由mapred-site.xml中的mapred.task.timeout设置规定的。我不确定如何在Hadoop的Cloudera4.1.4发行版中更改此设置?同样在以下错误日志中,您可以看到一些其他错误:MetaVERSION="1".JobJOBID="job_201
我尝试运行最新版本的apachegiraph示例,在快速启动页面(http://giraph.apache.org/quick_start.html)中进行了描述。我使用CDH4.4.0(Hadoop的Cloudera发行版)我已经构建了Giraph,其依赖项已更新到CDH4.4.0。一切顺利当我运行示例时,我得到以下输出-bash-4.1$hadoopjar/usr/local/giraph/giraph-examples/target/giraph-examples-1.1.0-SNAPSHOT-for-hadoop-2.0.0-cdh4.4.0-jar-with-dependen
我安装了CDH4现在我可以在网页上配置hadoop了。我想知道cdh把配置文件放在了本地文件系统的什么地方。例如,我想找到core-site.xml,但它在哪里? 最佳答案 CDH的安装默认在conf目录下/etc/hadoop/您始终可以使用以下命令来查找文件:$sudofind/-name"core-site.xml" 关于hadoop-CDH4的配置文件存放在哪里,我们在StackOverflow上找到一个类似的问题: https://stackover