草庐IT

HADOOP_NAMENODE_OPTS

全部标签

ubuntu - 安装配置单元后的 Hadoop(本地和主机目标不匹配)

我在我的笔记本电脑上安装了Hadoop2.2作为单节点集群运行ubuntu并运行字数统计示例。之后我安装了Hive并且Hadoop开始出现错误,即hdfsdfs-lsthrowsIOException:localhostis"utbuntu/127.0.1.1anddestinationhostislocalhost:9000"我在我的主机文件中找到了以下两个条目127.0.0.1localhost127.0.1.1ubuntu#andsomeIPv6entries...我的问题是为什么配置hive后报错,解决方法是什么?非常感谢任何帮助。谢谢! 最佳答案

java - HBase on Tomcat7 安装错误: Could not initialize class org. apache.hadoop.security.ShellBasedUnixGroupsMapping

我正在尝试通过tomcatservlet访问AWSEMR主节点上的HBase。我在tomcatservletget请求上有这段代码:Configurationconf=HBaseConfiguration.create();conf.setInt("timeout",120000);conf.set("hbase.master","*"+hbaseHost+":9000*");conf.set(HBASE_CONFIGURATION_ZOOKEEPER_QUORUM,hbaseZookeeperQuorum);conf.set(HBASE_CONFIGURATION_ZOOKEEPER

Hadoop:多用户伪分布式模式

在此先感谢您的帮助。我使用根用户凭据在伪分布式模式下设置了Hadoop。我想为多个用户提供访问权限(比如hadoop1、hadoop2等),以便能够在此集群上提交和运行MapReduce作业。我们如何完成这项工作?到目前为止我做了什么?>-SetupHadooptoruninPseudo-distributedmode>-Used"root"usercredentialstosetthisup.>-Addedusershadoop1andhadoop2toagroupcalled"hadoop".>-Addedrootalsotobepartofthegroup"hadoop".>-C

hadoop序列文件集合

reducer(带有一个Text键和一个IterableMapWritable值)如何将其所有Map输出到一个序列文件,以便保留其键上的分组?例如,假设映射器将记录发送到缩减器,如下所示:,,}>,,,}>,,}>我希望序列文件写成:key="dog"value={{,,},{,,}}key="cat"value={{,,,}}我猜想我需要创建一个实现可写的自定义值输出类,但我不确定该怎么做,因为据我所知,集合并不真正处理序列文件。我想这样做,以便下一个map/reduce阶段将作为一个单元读入与每个键关联的所有Map。TIA, 最佳答案

hadoop - 如何使用 PIG 在 Hadoop 中给定阈值进行连接

假设我有一个具有以下架构的数据集:ItemName(String),Length(long)我需要根据长度找到重复项。这在PIG中很容易做到:raw_data=LOAD...datasetgrouped=GROUPraw_databylengthitems=FOREACHgroupedGENERATECOUNT(raw_data)ascount,raw_data.name;dups=FILTERitemsBYcount>1;STOREdups....上面找到了完全相同的重复项。给定以下设置:一、100二、105三、100它会输出2,(a,c)现在我需要使用阈值查找重复项。例如,如果项目

java - 在 hadoop 的提示符下创建和运行可运行的 jar

我想尝试一下Hadoop包中提供的示例WordCount程序。因此,我在eclipse中创建了一个自定义项目,并将整个wordcount代码复制到我的自定义类中。我还在项目的构建路径中包含了所有外部Hadoopjar。最后,尝试创建一个可运行的JAR:文件->导出->Java选项卡->可运行的JAR。但是,我在创建jar时遇到错误:Exportedwithcompilewarnings:custom_project/src/custom_package/CustomWordCount.java尽管代码没有错误,但jar的创建给我带来了问题。如何解决这个问题?

hadoop - 在 JobContext 中找不到工作信息

我在远程计算机上运行Java程序并尝试使用RecordReader对象读取拆分数据,但得到的是:Exceptioninthread"main"java.io.IOException:jobinformationnotfoundinJobContext.HCatInputFormat.setInput()notcalled?我已经调用了以下内容:_hcatInputFmt=HCatInputFormat.setInput(_myJob,db,tbl);然后创建RecordReader对象:_hcatInputFmt.createRecordReader(hSplit,taskContex

hadoop - 减少许多 hive -e 调用的 hive 启动时间

我以这种方式从命令行调用hive-e数百次:cathive_script.hql|parallel--gnuhive-e'{}'hive_script.hql中的每一行都可以以任意顺序独立运行。有没有--hiveconf参数可以减少启动时间?Apache网页似乎暗示可能在https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VariableSubstitution"ThisisfrustratingasHivebecomescloselycoupledwithscriptinglanguages.TheHives

java - Hadoop:mapred.LocalJobRunner:MissingResourceException

我正在尝试使用自定义记录阅读器、映射器和缩减器设置一个简单的mapReduce应用程序。直到(包括)映射器它似乎工作(调用context.write时我在控制台上写出键值对以进行测试)。然后我收到消息"14/03/0414:25:43INFOmapred.JobClient:map100%reduce0%".但在那之后我每3秒进入一个无限循环"14/03/0414:25:45INFOmapred.LocalJobRunner:"没有详细消息或其他任何内容。在我的IDE中启用记录所有异常时,在上面的每条消息之后我都会收到以下异常:Exception'java.util.MissingRe

hadoop - 将 snappy 压缩数据写入配置单元表

我已经创建了一个配置单元表,现在我想将活泼的压缩数据加载到表中。因此我做了以下事情:SETmapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;SEThive.exec.compress.output=true;SETmapreduce.output.fileoutputformat.compress=true;CREATETABLEtoydata_table(idSTRING,valueSTRING)ROWFORMATDELIMITEDFIELDSTERMI