草庐IT

runtime-configuration

全部标签

configuration - 如何让hadoop程序使用包含参数列表的配置文件?

我写了一个hadoop程序,我知道我可以直接使用args[]向hadoop传递参数,我的意思是目前是这样的ToolRunner.run(newConfiguration(),newRunDear(),args);但是如果有很多参数,我可以做一个像下面这样的配置文件并传递给hadoop吗?该文件应该位于本地文件系统还是hdfs中?sample_size200input_genotype_file/data/genotypes.txtinput_phenotype_file/data/phenotypes.txtoutput_directory/outoutmtry200ntree3000

configuration - Hadoop 配置 - 映射器/组合器是否受 io.sort.factor 和 io.sort.mb 影响?

如果我修改io.sort.factor和io.sort.mb,在map端发生的本地排序是否使用这些变量,或者它们是否仅由在reducer端完成的排序使用? 最佳答案 是的,它们也用在map端(不管你有没有组合器):MapTask.javaio.sort.factor-第1695行io.sort.mb-第932-944行 关于configuration-Hadoop配置-映射器/组合器是否受io.sort.factor和io.sort.mb影响?,我们在StackOverflow上找到一个

configuration - 使用 System.setProperty() 覆盖 Hadoop 最终属性

系统管理员可以将某些属性定义为最终属性,这样客户端守护程序就不会覆盖它们。然而,使用System.setProperty()方法设置的属性优先于使用Hadoop的配置API设置的属性,在这种情况下,客户端守护程序不可能通过设置它来覆盖最终属性调用System.setProperty()?谢谢。 最佳答案 请注意,虽然可以根据系统属性定义配置属性,除非使用配置属性重新定义系统属性,否则它们不可访问通过配置API在内部,hadoop系统只会通过Configuration接口(interface)访问配置属性。如果用户无法通过配置界面修改

configuration - 如何在 hadoop-evn.sh 中设置内存

如何在hadoop-env.sh中设置内存?#ExtraJavaruntimeoptions#exportHADOOP_OPTS=-server如果我想设置NN:20GDN:4G,怎么办? 最佳答案 您可以在hadoop-env.sh中设置它们。exportHADOOP_NAMENODE_OPTS="-Xmx20G..."exportHADOOP_DATANODE_OPTS="-Xmx4G..." 关于configuration-如何在hadoop-evn.sh中设置内存,我们在Stac

Hadoop : Which configuration is Good

作为hadoop配置什么好..大量小型机器,每台具有512MBRam或少量大型机器(大约2Gb或4GBRam)我可以选择两者中的任何一个,因为我的节点是虚拟机..请分享您的想法.. 最佳答案 瓶颈在很大程度上取决于您使用的应用程序类型。但总的来说,我会恕我直言,你对内存的假设是错误的。你应该得到更少更快的主流机器。每台机器的配置方式取决于它的角色,但大量512MBVM无法匹配即使是少数具有良好网络/CPU和磁盘的12-24GB主流服务器。标准的高容量设备是可行的方法,但实际转化为:在“侧身”之前,首先要每台机器获得高效的性能。仅使用

java - 使用 Runtime.exec 从 JAVA 运行 hadoop jar 命令

我正在尝试使用Runtime.exec从JAVA运行hadoopjar命令。下面是示例代码:Runtime.getRuntime().exec(newString[]{"bin/hadoop","jar/home/hadoop/jar/test.jar/user/hduser/myinput/input/user/hduser/newoutput"});但是我没有得到想要的输出。下面是我想从JAVA执行的hadoop命令:bin/hadoopjar/home/hadoop/jar/test.jar/user/hduser/myinput/input/user/hduser/newout

java - Configuration.set 可以在 Mapper 中使用吗?

我正在尝试将一些数据从Mapper保存到Job/Main,以便我可以在其他作业中使用它。我尝试在我的主类(包含主函数)中使用静态变量,但是当映射器将数据添加到静态变量并且我尝试在作业完成时打印该变量时,我发现没有新的数据,就像Mapper修改了该静态变量的另一个实例。现在我正在尝试使用配置来设置来自映射器的数据:映射器context.getConfiguration().set("3","somedata");主要booleanstep1Completed=step1.waitForCompletion(true);System.out.println(step1.getConfigu

configuration - Hadoop:从 HDFS 映射/归约

我可能错了,但我见过的所有(?)ApacheHadoop示例都将存储在本地文件系统上的文件作为输入(例如org.apache.hadoop.examples.Grep)有没有办法在Hadoop文件系统(HDFS)上加载和保存数据?例如,我使用hadoop-0.19.1/bin/hadoopdfs-put~/local.xlsstored.xls在HDFS上放置了一个名为“stored.xls”的制表符分隔文件。我应该如何配置JobConf来读取它?谢谢。 最佳答案 JobConfconf=newJobConf(getConf(),.

configuration - 如何限制 Hadoop 中每个键的最大值?

这是我的问题。我有一个大数据集要处理,我需要限制每个键的最大值。有时我每个键有10000多个值,这比我需要的更多。那么我如何配置我的工作来为每个键只获取“x”个值呢?(任意键)在reduce阶段之后。编辑:这是reduce源代码。我的主要问题是有时我会遇到OutOfMemory,这是因为StringBuilder变得很大。也许有一种方法可以通过配置说“我只需要每个键10.000个值”。如果没有,我必须在我的reducer中添加一些额外的代码......publicvoidreduce(Textdomain,IterableinLinks,Contextcontext)throwsIOE

hadoop - 使用 Java Runtime.exec() 在 Hadoop 上运行命令

有一个名为“cufflinks”的程序运行如下:cufflinks-o此程序将1个文件作为输入,并在“output-dir”中生成4个文件作为输出。我正在尝试使用映射器类中的Runtime.exec()在Hadoop集群上运行相同的程序。我在设置output-dir=/some/path/on/HDFS我原以为这4个文件将作为o/p在HDFS上生成。然而,事实并非如此,HDFS上的o/p目录不包含这4个文件中的任何一个。然后我尝试设置output-dir=/tmp/output/它奏效了。谁能建议为什么它不能在HDFS上运行?我需要做什么才能让它在HDFS上运行?谢谢。