草庐IT

hadoop-mapreduce

全部标签

hadoop - 如何使用 BDM(Informatica) 将文件从本地文件系统复制到 hdfs 文件系统?

我正在使用Informatica版本10.2.1并使用BDM我想将文件从本地文件系统复制并粘贴到HDFS文件系统。我是BDM的新手,不知道该怎么做。目前我已经创建了一个对象并填充了Read和Write参数。我同时使用InputType和OutputType作为command并发出命令hdfsdfs-copyFromLocal-f/tmp/x。csv/tmp/x非常感谢任何帮助。编辑粘贴错误图片。 最佳答案 Informatica中的Command输入类型用于读取数据。像catfilename.txt流出数据以供Informatica

java - Windows 中的 Hadoop 错误

我已经成功安装了hadoop。但是,当我运行hadoop命令时,它会提示以下错误:C:\>hadoopversion'JAVA_HOME'isnotrecognizedasaninternalorexternalcommand,operableprogramorbatchfile.Hadoop2.7.3Subversionhttps://git-wip-us.apache.org/repos/asf/hadoop.git-rbaa91f7c6bc9cb92be5982de4719c1c8af91ccffCompiledbyrooton2016-0818T01:41ZCompiledwi

hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量

我尝试使用tez处理大数据(约150GB)的过程(句子的单词标签),但问题是它花了很多时间(1周或更多),然后我试图指定映射器的数量。虽然我设置了mapred.map.tasks=2000,但我无法阻止mapper被设置为150左右,所以我不能做我想做的事。我在oozie工作流文件中指定映射值并使用tez。如何指定映射器的数量?最后想加快进程,不用tez也可以。另外,我想用reducer统计标记的句子,也很花时间。而且,我还想知道如何调整内存大小以使用每个映射器和缩减器进程。 最佳答案 Inordertomanuallysetthe

java - hadoop 使用类名提交作业,为什么需要 job.setJarByClass()?

例如我有一个hadoop字数统计程序(来自互联网),字数统计.java:publicstaticclassWordCount{publicstaticvoidmain(String[]args)throwsException{....Jobjob=Job.getInstance(newConfiguration(),"wordcount");job.setJarByClass(WordCount.class);//Why?}}像这样将它编译成一个jar并提交给yarn:hadoopjarwordcount.jarWordCount[input-hdfs][output-hdfs]在这个

Hadoop单节点启动问题

我正在尝试通过执行来启动hadoop独立服务器(在aws中)start-dfs.sh文件但出现以下错误Startingnamenodeson[ip-xxx-xx-xxx-xx]ip-xxx-xx-xxx-xx:Permissiondenied(publickey).Startingdatanodeslocalhost:Permissiondenied(publickey).Exceptioninthread"main"java.lang.UnsupportedClassVersionError:org/apache/hadoop/hdfs/tools/GetConf:Unsupport

java - Hadoop MapReduce 环境变量

我正在试验HadoopMapReuce环境变量。我的用例很不寻常,但这不是我挣扎的原因。我的目标是在我的所有映射器和缩减器上导出环境变量。为此,我通过以下方式使用mapreduce.map.env和mapreduce.reduce.envconf设置:hadoopjarmyJob.jar-Dmapreduce.map.env="A=foo"这很好用,确实在我所有的映射器上公开了A。在那一点上,我会提到mapreduce.map.env确实缺乏互联网上的文档或用例示例。我的问题是我的项目按层运行MapReduce作业,每个层都可以将标志传递给hadoopjar命令,而我不控制上层。因此我

java - 在集群中启动 MapReduce 作业失败,退出代码为 : -1000 and job. jar 不存在

我正在尝试在Java代码中启动mapreduce作业并将作业提交给yarn。但出现以下错误:2018-08-2600:46:26,075WARN[main]util.NativeCodeLoader(NativeCodeLoader.java:(62))-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2018-08-2600:46:27,526INFO[main]client.RMProxy(RMProxy.java:createRMProxy(92))-

java - scala mapreduce 异常 : java. lang.ClassNotFoundException : scala. Function2

我已经在我自己的ubuntulinux18.04机器上安装并配置了jdk1.8/hadoop2.8.4/scala2.10.6,WordCountjava应用程序使用“hadoopjar”命令运行正常。然后我在与javawordcount相同的intellij项目中尝试了scala代码,代码如下:importjava.io.IOExceptionimportjava.util._importorg.apache.hadoop.fs.Pathimportorg.apache.hadoop.io._importorg.apache.hadoop.mapred._objectwc01{@th

Hadoop 调度程序与 oozie

oozie和Hadoop调度程序(FIFO、Fair、Capacity、Delay等)之间有什么区别?哪一个通常用于生产环境? 最佳答案 它们提供不同的功能。Oozie是一个作业调度程序和编排引擎。它将在配置的队列中执行YARN作业。例如,mapreduce.job.queuename在MR/Java操作中,tez.queue.name在HiveAction中(在Tez上),或--queue在星火。您使用的队列取决于您拥有的工作负载,但Fair或Capacity最适合Multi-Tenancy工作负载。如果您有需要在其他作业之前运行

hadoop - YARN 无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

我的查询:我在ubantu上安装了配置单元。我之前测试过它是工作文件,但后来它开始出错。insertintotest2values(1,'Mahendra');我的hive错误:QueryID=mahendra_20180827145546_86973630-5eff-4764-ade8-cfc3a8ce5c37Totaljobs=3LaunchingJob1outof3Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re