作业队

java - 让用户运行 HIVE 作业？

我正在使用我的UDF扩展类运行HIVE作业。我想获取提交我的作业的用户的名称，所以我正在使用System.getProperty("user.name");获取用户名，但问题是这是返回用户mapred，而在jobtracker上，作业显示用户名hdfs。我目前以hdfs身份登录，所以作业是由hdfs提交的，所以y是System.getProperty("user.name");重新调整一个不正确的值:-mapred谁能告诉我为什么会这样，以及在UDF的evaluate方法中获取用户名的任何替代方法最佳答案假设您没有启用K

hadoop - 在 HDFS 中的特定文件/ block 上运行 Map-Reduce 作业

首先，我是hadoop的新手:)我有一个大的gzip文件数据集(gzip文件中的TB文档，每个文件的大小约为100-500mb)。基本上，我需要对我的map-reduce作业的输入进行某种过滤。我想以各种方式分析这些文件。其中许多作业只需要分析特定格式的文件(特定长度，包含特定单词等-各种任意(倒置)索引)，并且为每个作业处理整个数据集需要不合理的时间。所以我想创建指向HDFS中特定block/文件的索引。我可以手动生成所需的索引，但我如何准确指定我想处理哪些(数千个)特定文件/block作为映射器的输入？我可以在不将源数据读入例如数据的情况下执行此操作吗？数据库？我想要吗？还是我完全

Map-Reduce hadoop code section 的 indexing hdfs

java - 无法在 hadoop 2.4.0 上运行 MapReduce 作业

我是hadoop的新手，这是我的问题。我在3台机器的集群上配置了hadoop2.4.0和jdk1.7.60。我能够执行hadoop的所有命令。现在我已经修改了wordcount示例并创建了jar文件。我已经在hadoop1.2.1上执行了这个jar文件并得到了结果。但是现在在hadoop2.4.0上我没有得到任何结果。用于执行的命令$hadoopjarWordCount.jarWordCount/data/webdocs.dat/output我从设置中收到以下消息:14/06/2919:35:18INFOclient.RMProxy:ConnectingtoResourceManage

MapReduce hadoop gt lt property java hadoop-yarn

hadoop - Spark 无法再执行作业。执行者创建目录失败

我们已经有一个小的spark集群运行了一个月，它已经成功地执行了作业，或者让我为集群启动一个spark-shell。无论我是向集群提交作业还是使用shell连接到集群，错误总是相同的。root@~]$$SPARK_HOME/bin/spark-shellSparkassemblyhasbeenbuiltwithHive,includingDatanucleusjarsonclasspath14/11/1020:43:01INFOspark.SecurityManager:Changingviewaclsto:root,14/11/1020:43:01INFOspark.Security

hadoop Spark 20141110204306 INFO 0389 mapreduce apache-spark

java - 用于编写和运行 hadoop 作业的 IDE？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我最近开始学习使用Java进行Hadoopmap-reduce编程的基础知识。到目前为止，我发现的唯一方法是使用vi或emacs在文件中编写代码，这看起来很糟糕、原始且非常痛苦。是否有用于编写、编译和运行Hadoop程序的IDE？

编写 hadoop section class notice java ide

hadoop - 为什么 YARN 作业不转换到 RUNNING 状态？

我有许多要运行的Samza作业。我可以让第一个运行正常。但是，第二个作业似乎处于ACCEPTED状态，并且在我杀死第一个作业之前永远不会转换到RUNNING状态。这是YARNUI的View:这是第二个作业的详细信息，您可以在其中看到没有分配任何节点:我有2个数据节点，所以我应该能够运行多个作业。这是我的yarn-site.xml的相关部分(我在文件中唯一的其他配置是与HA配置、Zookeeper等有关):yarn.scheduler.minimum-allocation-mb128Minimumlimitofmemorytoallocatetoeachcontainerrequesta

RUNNING hadoop resourcemanager yarn hadoop-yarn apache-samza

eclipse - 从 eclipse 启动 mapreduce 作业

我用Java编写了一个mapreduce程序，我可以将其提交到以分布式模式运行的远程集群。目前，我使用以下步骤提交作业:将mapreuce作业导出为jar(例如myMRjob.jar)使用以下shell命令将作业提交到远程集群:hadoopjarmyMRjob.jar我想在尝试运行程序时直接从Eclipse提交作业。我该怎么做？我目前使用的是CDH3，我的conf的删节版本是:conf.set("hbase.zookeeper.quorum",getZookeeperServers());conf.set("fs.default.name","hdfs://namenode/");co

eclipse mapreduce code java hadoop

algorithm - Hadoop/MapReduce - 优化 "Top N"Word Count MapReduce 作业

我正在处理类似于规范MapReduce示例的内容-字数统计，但有一点不同，我希望只获得TopN结果。假设我在HDFS中有一组非常大的文本数据。有大量示例展示了如何构建HadoopMapReduce作业，该作业将为您提供该文本中每个单词的字数统计。例如，如果我的语料库是:"Thisisatestoftestdataandagoodonetotestthis"标准MapReduce字数统计作业的结果集将是:test:3,a:2,this:2,is:1,etc..但是，如果我仅想要获得整个数据集中使用的前3个词怎么办？我仍然可以运行完全相同的标准MapReduce字数统计作业，然后在它准备就

MapReduce algorithm code String LongWritable hadoop

hadoop - MapReduce 作业未在终端上显示我的打印语句

我目前正在尝试弄清楚当您运行MapReduce作业时会发生什么，方法是在代码的某些位置创建一些system.out.println()但知道当作业运行时这些打印语句会在我的终端上打印.谁能帮我弄清楚我到底做错了什么。importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache

MapReduce hadoop import apache

java - 使用 hadoop 和 java 命令执行 map-reduce 作业有什么区别

找到许多运行map-reduce程序的选项。任何人都可以解释以下命令之间的区别。以及对Map-reduce作业的影响(如果有的话)。java-jarMyMapReduce.jar[args]hadoopjarMyMapReduce.jar[args]yarnjarMyMapReduce.jar[args]在这些命令中，哪一个最好？是否可以在以下命令中使用Web服务8088(YARN)端口使Web服务正常使用Yarn和JobHistory(如显示Hadoop和yarn命令)显示有关作业的所有信息？java-jarMyMapReduce.jar[args] 最佳

java map-reduce code section jar hadoop mapreduce hdfs hadoop-yarn

205 206 207208209 210 211