草庐IT

update-dependency-configurations

全部标签

java - Configuration.set 可以在 Mapper 中使用吗?

我正在尝试将一些数据从Mapper保存到Job/Main,以便我可以在其他作业中使用它。我尝试在我的主类(包含主函数)中使用静态变量,但是当映射器将数据添加到静态变量并且我尝试在作业完成时打印该变量时,我发现没有新的数据,就像Mapper修改了该静态变量的另一个实例。现在我正在尝试使用配置来设置来自映射器的数据:映射器context.getConfiguration().set("3","somedata");主要booleanstep1Completed=step1.waitForCompletion(true);System.out.println(step1.getConfigu

configuration - Hadoop:从 HDFS 映射/归约

我可能错了,但我见过的所有(?)ApacheHadoop示例都将存储在本地文件系统上的文件作为输入(例如org.apache.hadoop.examples.Grep)有没有办法在Hadoop文件系统(HDFS)上加载和保存数据?例如,我使用hadoop-0.19.1/bin/hadoopdfs-put~/local.xlsstored.xls在HDFS上放置了一个名为“stored.xls”的制表符分隔文件。我应该如何配置JobConf来读取它?谢谢。 最佳答案 JobConfconf=newJobConf(getConf(),.

configuration - 如何限制 Hadoop 中每个键的最大值?

这是我的问题。我有一个大数据集要处理,我需要限制每个键的最大值。有时我每个键有10000多个值,这比我需要的更多。那么我如何配置我的工作来为每个键只获取“x”个值呢?(任意键)在reduce阶段之后。编辑:这是reduce源代码。我的主要问题是有时我会遇到OutOfMemory,这是因为StringBuilder变得很大。也许有一种方法可以通过配置说“我只需要每个键10.000个值”。如果没有,我必须在我的reducer中添加一些额外的代码......publicvoidreduce(Textdomain,IterableinLinks,Contextcontext)throwsIOE

configuration - 在单节点集群上确定 Hadoop Conf 设置的一般方法

我想知道如何最好地确定适当数量的map和reduce任务以及JVM堆的相应最大大小?对于那些刚接触Hadoop的人来说,这些是在mapred-site.xml文件。有没有我可以根据(虚拟)内核和RAM的数量遵循的通用公式?在您的回复中,请考虑在作业之前/期间创建的各种其他Hadoop进程处理及其对RAM使用的影响(参见:https://forums.aws.amazon.com/thread.jspa?threadID=49024)从单机集群到双机集群,如何应对变化? 最佳答案 时间已经过去,没有人试图制定一个答案。所以我会提出一些

org.apache.hadoop.conf.Configuration.getLocalpath(配置)中的 java.lang.NullPointerException

有没有人遇到过这个问题?ThefollowingaretheerrorinformationwhenIrunthejob:13/01/1015:53:19INFOmapred.JobClient:TaskId:attempt_201301101540_0001_m_000010_0,Status:FAILEDjava.lang.NullPointerExceptionatorg.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:934)atnfs.iscas.sil.hcir.index.ImageInde

hadoop - 运行 pig 脚本给出错误 : job has failed. Stop running all dependent jobs

我需要帮助来了解为什么在运行pig脚本时出现错误。但是当我在较小的数据中尝试相同的脚本时,它会成功执行。有几个类似问题的问题,但没有一个有解决方案。我的脚本是这样的:A=load‘test.txt’usingTextLoader();B=foreachAgenerateSTRSPLIT($0,’”,”’)ast;C=FILTERBBY(t.$1==2andt.$2matches‘.*xxx.*’);StoreCintotemp;错误是:org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLaunch

ubuntu - update-alternatives 在 CDH4 安装中抛出错误

我正在我的ubuntu12.04系统上安装CDH4。当我使用update-alternative指向我的hadoop_conf时,它会抛出一个错误。我到处搜索,但没有找到解决这个问题的办法。使用的命令:-sudoupdate-alternatives--install/etc/hadoop/confhadoop-conf/etc/hadoop/conf.my_cluster50sudoupdate-alternatives--sethadoop-conf/etc/hadoop/conf.my_cluster这给出了一个错误...update-alternatives:error:can

hadoop - 级联 sinkmode.update 不工作

我刚开始级联编程并且有一个级联作业需要运行可变的迭代次数。在每次迭代期间,它从前一次迭代生成的文件(Tap)准备好并将计算的数据写入两个单独的SinkTaps。OneTap(TapFinal)用于收集每次迭代的数据。另一个Tap(Tapintermediate)用来收集下一次迭代需要计算的数据。我正在使用SinkMode.UPDATE来实现“Tapfinal”。它在本地模式下工作正常。但在集群模式下失败。提示文件已经存在(“Tapfinal”)。我正在运行CDH4.4和级联2.5.2。似乎没有人遇到过同样的问题。如果有人知道任何可能的修复方法,请告诉我。谢谢Causedby:org.a

java - 没有找到依赖 : expected at least 1 bean which qualifies as autowire candidate for this dependency. 依赖注释:

我正在尝试使用Spring编写一个SOAP服务,但是我收到了一个依赖注入(inject)问题。我在通过服务使用@Autowired时遇到问题,如下所示:publicinterfaceUserDao{UsergetUser(Stringusername);}Dao的实现如下:@Controller("userDao")publicclassUserDaoImplimplementsUserDao{privatestaticLoglog=LogFactory.getLog(UserDaoImpl.class);@Autowired@Qualifier("sessionFactory")pr

java - 没有找到依赖 : expected at least 1 bean which qualifies as autowire candidate for this dependency. 依赖注释:

我正在尝试使用Spring编写一个SOAP服务,但是我收到了一个依赖注入(inject)问题。我在通过服务使用@Autowired时遇到问题,如下所示:publicinterfaceUserDao{UsergetUser(Stringusername);}Dao的实现如下:@Controller("userDao")publicclassUserDaoImplimplementsUserDao{privatestaticLoglog=LogFactory.getLog(UserDaoImpl.class);@Autowired@Qualifier("sessionFactory")pr