我正在使用我的UDF扩展类运行HIVE作业。我想获取提交我的作业的用户的名称,所以我正在使用System.getProperty("user.name");获取用户名,但问题是这是返回用户mapred,而在jobtracker上,作业显示用户名hdfs。我目前以hdfs身份登录,所以作业是由hdfs提交的,所以y是System.getProperty("user.name");重新调整一个不正确的值:-mapred谁能告诉我为什么会这样,以及在UDF的evaluate方法中获取用户名的任何替代方法 最佳答案 假设您没有启用K
首先,我是hadoop的新手:)我有一个大的gzip文件数据集(gzip文件中的TB文档,每个文件的大小约为100-500mb)。基本上,我需要对我的map-reduce作业的输入进行某种过滤。我想以各种方式分析这些文件。其中许多作业只需要分析特定格式的文件(特定长度,包含特定单词等-各种任意(倒置)索引),并且为每个作业处理整个数据集需要不合理的时间。所以我想创建指向HDFS中特定block/文件的索引。我可以手动生成所需的索引,但我如何准确指定我想处理哪些(数千个)特定文件/block作为映射器的输入?我可以在不将源数据读入例如数据的情况下执行此操作吗?数据库?我想要吗?还是我完全
我是hadoop的新手,这是我的问题。我在3台机器的集群上配置了hadoop2.4.0和jdk1.7.60。我能够执行hadoop的所有命令。现在我已经修改了wordcount示例并创建了jar文件。我已经在hadoop1.2.1上执行了这个jar文件并得到了结果。但是现在在hadoop2.4.0上我没有得到任何结果。用于执行的命令$hadoopjarWordCount.jarWordCount/data/webdocs.dat/output我从设置中收到以下消息:14/06/2919:35:18INFOclient.RMProxy:ConnectingtoResourceManage
我们已经有一个小的spark集群运行了一个月,它已经成功地执行了作业,或者让我为集群启动一个spark-shell。无论我是向集群提交作业还是使用shell连接到集群,错误总是相同的。root@~]$$SPARK_HOME/bin/spark-shellSparkassemblyhasbeenbuiltwithHive,includingDatanucleusjarsonclasspath14/11/1020:43:01INFOspark.SecurityManager:Changingviewaclsto:root,14/11/1020:43:01INFOspark.Security
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭6年前。Improvethisquestion我最近开始学习使用Java进行Hadoopmap-reduce编程的基础知识。到目前为止,我发现的唯一方法是使用vi或emacs在文件中编写代码,这看起来很糟糕、原始且非常痛苦。是否有用于编写、编译和运行Hadoop程序的IDE?
我有许多要运行的Samza作业。我可以让第一个运行正常。但是,第二个作业似乎处于ACCEPTED状态,并且在我杀死第一个作业之前永远不会转换到RUNNING状态。这是YARNUI的View:这是第二个作业的详细信息,您可以在其中看到没有分配任何节点:我有2个数据节点,所以我应该能够运行多个作业。这是我的yarn-site.xml的相关部分(我在文件中唯一的其他配置是与HA配置、Zookeeper等有关):yarn.scheduler.minimum-allocation-mb128Minimumlimitofmemorytoallocatetoeachcontainerrequesta
我用Java编写了一个mapreduce程序,我可以将其提交到以分布式模式运行的远程集群。目前,我使用以下步骤提交作业:将mapreuce作业导出为jar(例如myMRjob.jar)使用以下shell命令将作业提交到远程集群:hadoopjarmyMRjob.jar我想在尝试运行程序时直接从Eclipse提交作业。我该怎么做?我目前使用的是CDH3,我的conf的删节版本是:conf.set("hbase.zookeeper.quorum",getZookeeperServers());conf.set("fs.default.name","hdfs://namenode/");co
我正在处理类似于规范MapReduce示例的内容-字数统计,但有一点不同,我希望只获得TopN结果。假设我在HDFS中有一组非常大的文本数据。有大量示例展示了如何构建HadoopMapReduce作业,该作业将为您提供该文本中每个单词的字数统计。例如,如果我的语料库是:"Thisisatestoftestdataandagoodonetotestthis"标准MapReduce字数统计作业的结果集将是:test:3,a:2,this:2,is:1,etc..但是,如果我仅想要获得整个数据集中使用的前3个词怎么办?我仍然可以运行完全相同的标准MapReduce字数统计作业,然后在它准备就
我目前正在尝试弄清楚当您运行MapReduce作业时会发生什么,方法是在代码的某些位置创建一些system.out.println()但知道当作业运行时这些打印语句会在我的终端上打印.谁能帮我弄清楚我到底做错了什么。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache
找到许多运行map-reduce程序的选项。任何人都可以解释以下命令之间的区别。以及对Map-reduce作业的影响(如果有的话)。java-jarMyMapReduce.jar[args]hadoopjarMyMapReduce.jar[args]yarnjarMyMapReduce.jar[args]在这些命令中,哪一个最好?是否可以在以下命令中使用Web服务8088(YARN)端口使Web服务正常使用Yarn和JobHistory(如显示Hadoop和yarn命令)显示有关作业的所有信息?java-jarMyMapReduce.jar[args] 最佳