草庐IT

debug_conf

全部标签

apache-spark - 如何将 hadoop conf 目录指定为 conf 属性以启动应用程序

是否有一个spark属性,我们可以在执行spark提交时设置它指定hadoop配置路径,专门指向自定义hdfs-site.xml和core-site.xml文件 最佳答案 首选的方法是在spark-submit之前设置Hadoop配置目录,而不是单独配置这些文件。exportHADOOP_CONF_DIR=/your/hadoop/dir但如果必须使用sparkConfig来设置,可以按如下方式设置,sparkConfig.set("spark.hadoop.yarn.resourcemanager.hostname","XXX")

java - 从hadoop中的作业conf获取输入路径

我正在设置一个路径作为conf的输入位置FileInputFormat.setInputPaths(conf,newPath("path/to/folder"));当我尝试实现自己的RecordReader时,如何从conf中取回这个位置提前致谢... 最佳答案 此调用设置的属性是map.input.dir,因此这应该适合您:conf.get("map.input.dir");附带说明一下,您的记录阅读器应该根据initialize(InputSplit,TaskAttemptContext)方法中给出的输入拆分进行操作,因为您在s

hadoop - 如何更改 hadoop conf 目录位置?

在异常堆栈跟踪中,我可以看到我的hadoop配置是从/etc/hadoop/conf.empty/hdfs-site.xml加载的如何将其更改为/etc/hadoop/conf/hdfs-site.xml? 最佳答案 原则上,您可以在加载hadoop守护程序之前加载任何bash脚本,例如在/etc/init.d/hadoop-hdfs-datanode中用于数据节点。你可以在这个init脚本的顶部添加,exportHADOOP_CONF_DIR=/etc/hadoop/conf此外,您可以在/usr/lib/hadoop/etc/h

debugging - 当底层作业成功完成时,Oozie 工作流在 Hive 作业上出错

自学的一部分我正在探索Oozie,我正在HortonworksSandboxVM上练习.问题是当OozieUI中的链接给出的基础作业显示成功时,Oozie工作流会出错并因此被终止。我看过this问题并已包含hive-site.xml在职位描述中,并将hive-site.xml复制到HDFS到正确的文件夹,但无济于事。此外,我仔细检查了所有URL,一切正常。我正在从命令行运行Oozie作业。我不知道从哪里开始调试或如何获得更详细的错误。以下是屏幕截图:Oozie错误底层Hive作业表示成功完成。我没有像我应该看到的那样将最终结果视为配置单元表。Map任务的日志输出如下:(49))-Suc

configuration - 在单节点集群上确定 Hadoop Conf 设置的一般方法

我想知道如何最好地确定适当数量的map和reduce任务以及JVM堆的相应最大大小?对于那些刚接触Hadoop的人来说,这些是在mapred-site.xml文件。有没有我可以根据(虚拟)内核和RAM的数量遵循的通用公式?在您的回复中,请考虑在作业之前/期间创建的各种其他Hadoop进程处理及其对RAM使用的影响(参见:https://forums.aws.amazon.com/thread.jspa?threadID=49024)从单机集群到双机集群,如何应对变化? 最佳答案 时间已经过去,没有人试图制定一个答案。所以我会提出一些

org.apache.hadoop.conf.Configuration.getLocalpath(配置)中的 java.lang.NullPointerException

有没有人遇到过这个问题?ThefollowingaretheerrorinformationwhenIrunthejob:13/01/1015:53:19INFOmapred.JobClient:TaskId:attempt_201301101540_0001_m_000010_0,Status:FAILEDjava.lang.NullPointerExceptionatorg.apache.hadoop.conf.Configuration.getLocalPath(Configuration.java:934)atnfs.iscas.sil.hcir.index.ImageInde

hadoop - 运行 Hadoop 示例时出现错误 : package org. apache.hadoop.conf 不存在

我已经使用exportCLASSPATH=${CLASSPATH}:/~Downloads/hadoop-1.0.4/*.jar将hadoopjars添加到类路径中,但我仍然我收到找不到包的错误。我正在使用Java1.7.0_17。有人知道如何正确设置hadoopjar的类路径吗? 最佳答案 您要将它们设置到的不是CLASSPATH,而是HADOOP_CLASSPATH。我喜欢使用以下命令添加当前目录和lib目录中的所有jar依赖项:exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:`echo*.ja

hadoop - Nutch 2.0 和 Hadoop。如何防止缓存 conf/regex-urlfilter.txt

我在一台机器上安装了nutch2.x和hadoop1.2.1。我配置seed.txt、conf/regex-urlfilter.txt并运行命令crawlurls/seed.txtTestCrawlhttp://localhost:8088/solr/2然后我想更改conf/regex-urlfilter.txt中的规则我在2个文件中更改了它:~$find.-name'regex-urlfilter.txt'./webcrawer/apache-nutch-2.2.1/conf/regex-urlfilter.txt./webcrawer/apache-nutch-2.2.1/runt

java - Hadoop conf 文件丢失

我正在通过IbmBigInsights提供的RHEL5上的虚拟机镜像使用hadoop,我无法找到conf文件夹。我想用eclipse嵌入jaql来开发一个前端。 最佳答案 在IBMBiginsightshadoop发行版中,hadoop库、conf、脚本等默认位于/opt/ibm/biginsights/目录下。您可以使用以下查找命令定位到各个组件的配置目录find/opt/ibm-iname"*-site.xml" 关于java-Hadoopconf文件丢失,我们在StackOverf

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少?

我们将推文保存在目录顺序中,例如/user/flume/2016/06/28/13/FlumeData...。但每小时它会创建超过100个FlumeData文件。我更改了TwitterAgent.sinks.HDFS.hdfs.rollSize=52428800(50mb)同样的事情又发生了。之后我也尝试更改rollcount参数但没有成功。我如何设置参数以每小时获取一个FlumeData文件。 最佳答案 rollInterval怎么样?你把它设置为零了吗?如果是,那么问题可能出在其他地方。如果rollInterval设置为某个值,