草庐IT

HADOOP_NAMENODE_OPTS

全部标签

java - 需要安装 hadoop 的帮助

我是Hadoop新手,正在尝试使用cygwin在我的Windows7(x64)PC上安装它。我按照本教程安装了http://alans.se/blog/2010/hadoop-hbase-cygwin-windows-7-x64/#software在此步骤之前一切正常-OnlyHadoop0.21.0:Next,onelinehastobeaddedtothehadoop-config.shfileinhadoop-0.21.-0/binCLASSPATH=`cygpath-wp"$CLASSPATH"`AddthislinebeforethelinecontainingJAVA_LI

java - 包括核心和数学文件夹的 Mahout 数学库类 - Eclipse - Hadoop

我的问题与此类似:HowdoIbuild/runthissimpleMahoutprogramwithoutgettingexceptions?,但有点复杂。我正在编写Hadoop代码,并且想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类)。问题是前一个示例类位于Mahout最新SNAPSHOT的math文件夹中,而后者位于core文件夹下,并且两者共享与根文件夹(org.apache.mahout.math).问题是我没有找到让Hadoopjar文件正确导入与数学相关的类的方法,而是位于Mahout项目的Core文件夹下。我正在使用Ecli

hadoop - 如何编写简单的 map-reduce 作业以将制表符分隔的文本文件转换为序列文件?

我想将一个文本文件作为映射器的输入并输出一个序列文件。如何编写一个简单的map-reduce作业?文本文件将具有制表符分隔值。例如输入:group112345对于这样的输入,我想创建输出序列文件,其键为“group1”,其值应为12345的向量。我怎样才能写这些工作?另外我觉得在这种情况下我不需要reducer。在这种情况下如何编写identityreducer作业?我可以跳过编写reducer作业吗?感谢任何帮助。问候。 最佳答案 是的,您可以跳过编写Reducer。将其设置为简单的Reducer.class。同时调用setNum

hadoop - 如何更改 HDFS 中的文件时间戳?

在linux中,您可以使用touch来更改文件的时间戳。但是,当文件已经存在时,HDFStouchz不会更改文件时间戳。是否有一种在不删除文件的情况下更改HDFS时间戳的简单方法? 最佳答案 您可以使用FileSystem#setTimes方法。 关于hadoop-如何更改HDFS中的文件时间戳?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/11856385/

java - 与 Hadoop MapReduce 的成对比较

我有一个很大的文本文件(5GB),每行一个字符串。我需要使用专有算法将每一行与其他每一行进行比较。我是MapReduce的新手,但有Java经验。给我带来麻烦的问题是创建单独的map输入。文档似乎是在假设每一行都不依赖于任何其他行的情况下编写的。执行此操作的最佳方法是什么? 最佳答案 这里有一些关于使用Hadoop进行连接的有趣论文:http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdfhttp://www.inf.ed.ac.uk/publications/t

Hadoop 分布式缓存归档在工作目录中取消归档

我正在通过–Dmapred.cache.archives=hdfs://host:port/path/archive.zip#foldername–D.mapred.create.symlink=yes将存档发送到分布式缓存并在工作目录中创建一个新文件夹并取消存档那里的文件。问题是我需要工作目录中的那些文件并且我已经尝试使用.和./作为文件夹名称以及发送一个空的。除了在我的Java代码中显式移动文件之外,关于如何解决此问题的任何想法? 最佳答案 将文件放在工作目录中的具体需求是什么(这样我就可以理解并提出一些替代方案)。无论如何,分

hadoop - 从 Windows 使用 Java 访问 HDFS

我有一个ClouderaHadoop安装,我想编写一个Java程序来从Windows机器的文件系统中读取/写入。这应该是可能的吗?我的程序很简单:publicclassHadoopReader{static{URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());}publicstaticvoidmain(String[]args)throwsException{System.out.println("okay");InputStreamin=null;try{in=newURL("hdfs://HOST/PATH"

join - Map-side 加入 Hadoop Streaming

我有一个文件,其中每一行都是一条记录。我希望某个字段中具有相同值的所有记录(如果字段A则调用)转到同一个映射器。我听说这被称为Map-SideJoin,而且我还听说如果文件中的记录按我所说的字段A排序很容易。如果更简单的话,数据可以分布在多个文件中,但每个文件都按字段A排序。这样对吗?我如何在流媒体中做到这一点?我正在使用Python。假设它只是我用来启动Hadoop的命令的一部分? 最佳答案 只希望将某些记录发送给某些映射器的真正理由是什么?如果您想要的最终结果是3个输出文件(一个全是A,另一个全是B,最后一个全是C),您可以使用

hadoop - 有什么方法可以修复HDFS随机因子的种子

我正在使用HADOOP-0.22在HDFS上做一些实验。另一方面,为了使我的实验可重复,我需要修复一些随机因素的HDFS种子。具体来说,每次我重新格式化文件系统并导入同一组数据时,我都希望将数据block分配给与上一个实验相同的数据节点并具有相同的名称。我不知道是否有人这样做过。感谢任何回复。 最佳答案 您的Hadoop版本支持可插入block放置策略,您可以根据需要提供更加静态或非随机的block放置策略。参见HDFS-385了解更多技术细节,以及此后该界面的相关演变。 关于hadoo

Hadoop:/usr/lib/hadoop-0.20.2/conf/slaves: 没有那个文件或目录

我完全按照hadoop官网上的步骤操作,但是总是报如下错误:startingnamenode,loggingto/home/videni/Tools/hadoop-1.0.3/libexec/../logs/hadoop-videni-namenode-videni-Latitude-E6400.outcat:/usr/lib/hadoop-0.20.2/conf/slaves:Nosuchfileordirectorycat:/usr/lib/hadoop-0.20.2/conf/masters:Nosuchfileordirectorystartingjobtracker,logg