草庐IT

hadoop - 是否可以在没有 HDFS 和 Hadoop 集群的情况下在本地运行 MapReduce?

鉴于我在我的Windows系统中开发MapReduce任务,并且在将它们移动到HDFS集群之前,我想在本地运行MapReduce。我只想检查我的映射器逻辑、inputSplits、输入/输出格式等是如何工作的。这可能吗? 最佳答案 Hadoop以3种模式运行。1.localmode2.psuedomode3.distributedmode.您正在寻找的是本地模式。在以2或3种模式运行之前,您可以从eclipse调试mapreduce代码。This在本地模式下运行应用程序的分步指南可以帮助您调试应用程序。希望对您有所帮助!

java - Hadoop 将数据附加到 hdfs 文件并忽略重复条目

如何将数据附加到HDFS文件并忽略重复值?我有一个巨大的HDFS文件(MainFile),我还有2个来自不同来源的新文件,我想将这些文件中的数据附加到MainFile。主文件和其他文件具有相同的结构。 最佳答案 您可以编写一个mapreduce作业以将您的文件合并到hdfs中,或者您使用读取“2otherfiles”并写入“MainFile”:FileSystemfs=FileSystem.get(newConfiguration());FileStatus[]status=fs.listStatus(newPath(/*2othe

hadoop - 是否有工具可以将目录内容按原样连续复制到 HDFS?

我尝试使用flume目录后台处理程序源和HDFS接收器。但这并不符合我的目的,因为文件由Flume读取,然后作为可以按大小/时间滚动的部分文件写入HDFS(如果我弄错了,请纠正我)。是否有一种工具可以像HDFS一样对转储到假脱机目录中的所有文件连续执行操作? 最佳答案 如果我答对了你的问题,那么你有一个,你正在将文件放入其中,你想将该文件移动到HDFS而不读取它和HDFScopyFromLocal将解决您的问题然后您只需要有一个逻辑可以返回目录中最近的文件并运行CopyFromLocal命令将其复制到HDFS.

hadoop - 如何使用sqoop将json数据从hdfs插入到mysql?

我已经将JSON数据加载到我的HDFS,我在MySQL数据库中创建了包含所需列的表,如下所示。如何使用行格式器创建表格以接受JSON?我的HDFS数据{"Employees":[{"userId":"rirani","jobTitleName":"Developer","firstName":"Romin","lastName":"Irani","preferredFullName":"RominIrani","employeeCode":"E1","region":"CA","phoneNumber":"408-1234567","emailAddress":"romin.k.ira

hadoop - 从SVN “no namenode to stop”通过Hadoop替换mapred/hdfs/common jar构建后

我从中checkout源代码http://svn.apache.org/repos/asf/hadoop/commonhttp://svn.apache.org/repos/asf/hadoop/hdfshttp://svn.apache.org/repos/asf/hadoop/mapreduce并得到hadoop-mapred-0.23.0-SNAPSHOT.jarhadoop-hdfs-0.23.0-SNAPSHOT.jarhadoop-common-0.23.0-SNAPSHOT.jar但是我无法使用这些jar启动all.sh...Jobtracker和tasktracker启

java - 在 $HADOOP_HOME 之外运行 Java 程序(使用 HDFS JAVA API)

我有一个简单的Java程序,它简单地读取和写入一些文本到HDFS上的文件。我使用hadoopHDFSReadWrite文本运行它。我想从eclipse或就像任何其他java程序一样运行它,并且仍然能够在Hadoop环境之外使用HDFS。有没有办法做到这一点?我非常需要它。 最佳答案 我能够在Eclipse中运行mapreduce作业。它与HDFS程序应该没有太大区别。从命令提示符启动名称节点和数据节点。在Eclipse中创建一个Java项目。包括常用的、hdfs和所需的jar文件。在项目中包含HDFSReadWrite.java文件

hadoop - 我们如何比较本地文件和 hdfs 文件的一致性

publicStringgetDirs()throwsIOException{fs=FileSystem.get(conf);fs.copyFromLocalFile(newPath("/private/tmp/as"),newPath("/test"));LocalFileSystemlfs=LocalFileSystem.getLocal(conf);//System.out.println(newLocalFileSystem().ge(conf.getLocalPath("/private/tmp/as")));System.out.println("LocalPath:"+l

Linux 库链接问题 - HADOOP HDFS C API

我正在尝试运行CAPI库附带的hdfs_test应用程序。当我使用命令编译应用程序时:gccmyTest.c-I/usr/HDFS/src/c++/libhdfs-L/usr/HDFS/build/c++/Linux-i386-32/lib-lhdfs-omyTest我在设置LD_LIBRARY_PATH之后这样做exportLD_LIBRARY_PATH=/usr/lib/jvm/default-java/jre/lib/i386:/usr/lib/jvm/default-java/jre/lib/i386/server:/usr/lib/jvm/default-java/jre/l

mongodb - hadoop mongodb 连接器 - 输出数据不是 mongodb 而是 hdfs

是否可以从hadoopmongodb插件连接器读取mongodb数据,使用mapreducehadoop处理数据,当输出结果不使用hadoopmongodb插件连接器但将mapreducehadoop的结果保留在hdfs中时? 最佳答案 我认为之前关于SO的回答回答了你的问题,只是做了一个小改动:IsitpossibletoreadMongoDBdata,processitwithHadoop,andoutputitintoaRDBS(MySQL)?主要区别在于您会将OutputFormatClass设置为类似以下内容:job.se

hadoop - 测试与 HDFS 的连接

为了测试从Java程序到HDFS的连接,依赖FileSystem.get(configuration)是否足够或应该进行额外的完整性检查?(例如:一些基于文件的操作,如列表,复制,删除) 最佳答案 FileSystem.get(Configuration)创建一个DistrubutedFileSystem对象,该对象又依赖于DFSClient与NameNode对话。隐藏在源代码深处(1.0.2是我正在查看的版本)是为NameNode创建RPC的调用,它又为ClientProtocol接口(interface)创建代理。当这个代理被创