草庐IT

HADOOP_OPTS

全部标签

maven - 如何使用 Maven 构建 Hadoop 作业

我是maven和hadoop的新手,想知道更多关于如何设置maven环境的信息,以便我可以构建一个简单的hadoopwordcount作业。如果wordcount作业由map.java、reduce.java和驱动程序类wordcount.java组成,它们应该保存在哪里,以便maven可以将它们编译成.jar?我还有一个pom.xml。如果有人可以详细解释如何使用maven运行wordcount作业,我将不胜感激。我目前正在ubuntu终端上的单节点集群hadooptar上做所有事情。我发现这些链接给了我一些见解,但我并不完全理解整个路径目录方案。具体来说,groupid和artif

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载?子工作流选项在这方面有用吗?

我必须编写一个运行多个pig操作的oozie工作流。这些pig操作可能相互依赖。我的意思是一个pig脚本的输出将对其他脚本有用。我想避免从hdfs进行多次保存和加载。这是如何实现的?我可以使用TEZDAG将DAG结构中的所有pig脚本组合起来,并从Oozie运行一个JavaAction吗? 最佳答案 在oozie中,你不能将一个节点的输出传递到另一个节点(不存储在HDFS中)。您可以实现PigServer(pigjavaAPI)来执行多个pig脚本。在一个使用pigserver的java程序中,它总是很容易满足您的要求。

hadoop - pig @hadoop : processing local files without hdfs with multiple cores

如果我在本地模式下运行pig@hadoop(因为我不想使用hdfs),那么它会在单线程/单进程模式下处理我的脚本。如果我将hadoop设置为伪模式(hdfswithreplication=1),那么pig@hadoop不喜欢我的file:///...:traj=LOAD'file:///root/traj'USINGorg.apache.pig.piggybank.storage.CSVExcelStorage(';','NO_MULTILINE','UNIX','SKIP_INPUT_HEADER')AS(a1:chararray,a2:long,a3:long,a4:float,a

安装和配置中的 hadoop 问题

在我尝试启动start-dfs.sh时安装hadoop后,它显示以下错误消息。查了很多发现WARN是因为我在用UBUNTU64位操作系统和hadoop是针对32位编译的。所以这不是一个需要解决的问题。但是我担心的是不正确的配置。并且也无法启动主要和次要名称节点。sameer@sameer-Compaq-610:~$start-dfs.sh15/07/2707:47:41WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereappli

hadoop - 如何将 Microsoft SQL Server 中的数据导入 HBase

我已经使用ClouderaManager和CDH5.4在集群系统(1Master,2Slaves,基于Ubuntu的高配置)上成功安装了ApacheHadoop我想将数据从MicrosoftSQL服务器导入到HBase(基于列的hadoop数据库),截至目前,我已经从SQL服务器生成CSV文件并使用HBase浏览器(ClouderaManager中的Hue应用程序)将CSV导入到HBase。如果有任何方法可以直接将SQL服务器数据导入HBase,那对我会有帮助,我听说Sqoop应用程序已经完成了将数据从RDBMS导入Hadoop系统(即使我没有尝试这个,我假设这会导入CSV文件到Had

hadoop - HBase 索引器与 Apache HBase 一起工作

我在使用ApacheHbase构建时遇到以下错误。我正在运行以下邮件mvn-ecleaninstall-DskipTests-Dhbase.api=0.98```[错误]构建错误[信息]----------------------------------------------------------------------[INFO]构建POM时出错(可能不是该项目的POM)。项目ID:null:akuma:jar:1.9原因:找不到父项目:org.kohsuke:pom项目:null:akuma:jar:1.9项目null:akuma:jar:1.9[信息]------------

Linux实战——Hadoop安装部署

大数据集群(Hadoop生态)安装部署简介1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。三类组件HadoopHDFS:提供分布式海量数据存储能力HadoopYARN:提供分布式集群资源管理能力HadoopMapReduce:提供分布式海量数据计算能力前置要求请确保完成了集群化环境前置准备即:JDK、SSH免密、关闭防火墙、配置主机名映射等前置操作JDK、防火墙配置集群化环境前置准备、SSH免密、关闭防火墙、配置主机名映射Hadoop集群角色Hadoop生态体系中总共会出现如下进程角色:HadoopHDFS的管理角色:

java - 在 ubuntu 15.04 上安装 hadoop 2.7 无法找到或加载主类

我按照来自here的命令在Ubuntu15.04上安装了Hadoop2.7.0单节点集群在命令格式化hdfs之前几乎一切正常。当我进入$hdfsnamenode-format我收到错误:CouldnotfindorloadmainclassDjava.librarary.path=.usr.local.hadoop.lib在bashrc我有#hadoopvariablesexportJAVA_HOME=/usr/lib/jvm/java-8-oracle/lib/amd64exportHADOOP_HOME=/usr/local/hadoopexportPATH=$PATH:$HADO

hadoop - hadoop在本地和分布式模式下静态变量的行为是否不同

假设我有一个静态变量分配给我的映射器中的类变量,静态变量的值取决于作业,因此它与在该作业的作业跟踪器节点中执行的一组输入拆分相同因此我可以在我的Mapper(在JobTracker节点中运行的JVM)中将作业特定变量直接分配为静态变量。对于一些不同的作业,这些值会改变,因为它是一个不同的作业,并且它自己的作业有不同的类路径变量,但我相信它不会影响前面提到的作业,因为它们在不同的JVM中运行(Jobtracker).现在如果我在本地模式下尝试这个,上面的不同作业将在同一个JVM中运行,因此当这个不同的作业将尝试覆盖我的前作业设置的作业特定类变量时,它会导致问题为了我以前的工作。所以我们可

ubuntu - Hadoop Yarn 作业跟踪器未启动

前言:我有一个网络应用程序的问题,该应用程序是由一名已离职的员工开发的。由于几乎没有关于可用实现的文档,我不确定从哪里获得更多关于该问题的信息,因此提出了这个问题。我试图找到与此问题(Hadooppseudodistributedmode-Datanodeandtasktrackernotstarting)类似的问题的解决方案。但是,由于我对hadoop的经验很少,所以我无法确定我需要修复什么才能让应用程序正常工作。场景:应用程序分为两部分:有一个运行应用程序的Tomcat服务器处理用户输入并提供mapreduce的结果作业(localhost:8080/WebApp)。localho