草庐IT

HADOOP_PREFIX

全部标签

Hadoop ls 命令不起作用

我能够在HDFS中创建目录,但是当我提交“ls”命令时,它给出了下面提到的错误。当我给bin/hadoopdfs–ls/时,我得到了同样的错误。我错过了什么?hduser@Server-8-22:/usr/local/hadoop$bin/hadoopfs-mkdirskalburginputWarning:$HADOOP_HOMEisdeprecated.hduser@Server-8-22:/usr/local/hadoop$bin/hadoopfs-mkdirskalburgoutputWarning:$HADOOP_HOMEisdeprecated.hduser@Server-

hadoop - 将参数 "args"从主类传递给 Map 类

示例:jar类arg1arg2arg3arg1用于输入格式,arg2用于输出格式,如下所示:publicstaticvoidmain(String[]args){FileInputFormat.addInputPath(conf,newPath(args[0]));FileOutputFormat.setOutputPath(conf,newPath(args[1]));....}我需要发送arg3"args[2]"到map类......publicclassJoinMultiMapextendsMapReduceBaseimplementsMapper{ineedarg3her}

hadoop - Cloudera Director Server AWS 快速入门

我正在关注ClouderaAWS快速入门https://s3.amazonaws.com/quickstart-reference/cloudera/hadoop/latest/doc/Cloudera_EDH_on_AWS.pdf我正在使用选项2使用ClouderaDirectorServer。我按照指示使用./bin/cloudera-director-server启动服务器,然后系统提示我“监听端口7189上的连接”。由于没有提示,我不确定如何运行下一步。./bin/cloudera-directorbootstrap-remoteaws.simple.conf--ip.remo

hadoop - "Unexpected Error"加入 2 个简单表

我已经创建了一个配置单元数据库。我使用HortonworksODBC驱动程序为Hive创建了一个ODBC数据源。我使用来自Tableau9(桌面)的数据源。我可以查询表DimA,我可以查询表FactA。但是在tableau中,如果我尝试进行连接,则会出现错误[Hortonworks][HiveODBC](35)ErrorfromHive:errorcode:'0'errormessage:'ExecuteStatementfinishedwithoperationstate:ERROR_STATE'.UnexpectedError我可以轻松地转到我的集群并在hiveshell中发出相同

hadoop - 执行查询时hadoop如何处理ram?

在像mysql这样的关系数据库模型中,当用户向数据库发送查询时,如“SELECTmessage.message_idFROMmessage”,整个​​表'message'加载到RAM中。当表非常大并且服务器没有足够的内存时,mysql崩溃。抱歉我的问题。我不知道如何描述我的问题。我在大学的数据库类(class)要求搜索有关hadoop如何处理表以及查询发送到数据库并且hadoop尝试执行查询时的查询 最佳答案 由于这是家庭作业,我不会完全回答您的问题,但我会为您指明正确的方向。在传统的关系数据库(MySQL、PostgreSQL、S

hadoop - 没有 YARN 的 MapReduce 2

考虑到YARN是运行mapreduce2的更好选择这一事实,但是是否可以在没有YARN的情况下运行MR2?我尝试使用MR2,但它与YARN一起运行。 最佳答案 MRv2实际上是YARN!所以,不,你不能在没有YARN的情况下运行mapreduce2作业!Officialdocumentation:ApacheHadoopNextGenMapReduce(YARN)MapReducehasundergoneacompleteoverhaulinhadoop-0.23andwenowhave,whatwecall,MapReduce2.

hadoop - 我如何拥有多个映射器和缩减器?

我有这段代码,我在其中设置了一个映射器和一个缩减器。我想再包含一个映射器和一个缩减器来完成进一步的工作。问题是我必须将第一个mapreduce作业的输出文件作为下一个mapreduce作业的输入。是否可以这样做?如果是,我该怎么做?publicintrun(String[]args)throwsException{JobConfconf=newJobConf(getConf(),DecisionTreec45.class);conf.setJobName("c4.5");//thekeysarewords(strings)conf.setOutputKeyClass(Text.clas

hadoop - 如何Hadoop Map Reduce整个文件

我玩过各种流映射减少字数统计示例,其中Hadoop/Hbase似乎采用大文件并在节点之间平均拆分(在换行符处)。然后它将部分文档的每一行提交到我的代码的map部分。我的问题是,当我有很多小的非结构化和半结构化文档时,如何让Hadoop将整个文档提交到我的map代码? 最佳答案 文件拆分由InputFormat.getSplits计算。因此,对于每个输入文件,它都会获得拆分数,并且每个拆分都会提交给映射器。现在基于InputFormatMapper将处理输入拆分。我们有不同类型的输入格式,例如TextInputFormat,它将文本文

hadoop - 节点管理器是否在每个 DataNode 内部执行 Map 和 Reduce 阶段?

我了解资源管理器将MapReduce程序发送到每个节点管理器,以便MapReduce在每个节点中执行。但是在看到这张图片之后,我对实际Map&Reduce作业的执行位置以及数据节点之间的洗牌如何发生感到困惑?难道不是花时间对不同数据节点的数据进行排序和混洗/发送数据来执行ReduceJob吗?请解释一下。另外请告诉我什么是图中的MapNode和ReduceNode。图片来源:http://gppd-wiki.inf.ufrgs.br/index.php/MapReduce 最佳答案 inputsplit是存储在hdfs上的文件的逻辑

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗?如果是这样,对我们可以运行的算法有什么限制吗? 最佳答案 是的,mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP