草庐IT

xml - 在 Hadoop 中创建许多小的 XML 文件

我在Hadoop中有一个大型数据集,其中包含许多不同客户的数据。在此数据集中,每个客户都可以有许多订单商品,每天的订单数量从几百到几百万不等。数据集有大约50,000个客户。我需要做的是为每个客户创建一份每日XML报告,其中每个客户的数据都在其自己的文件中。这意味着一些文件会很小,但其他文件会很大(XML表示非常冗长并且有很多字段)。编写MapReduce代码来生成XML是微不足道的,我解决这个问题的第一个方法是使用HadoopMultipleOutputs在reducer中为每个客户编写一个文件。虽然这可行,但所有这些小文件都会给Namenode带来很大压力。此外,我需要将所有这些文

hadoop - Pig 中的 SUM、AVG 不起作用

我在pig中使用以下代码分析集群用户日志文件:t_data=load'log_flies/*'usingPigStorage(',');A=foreacht_datagenerate$0as(jobid:int),$1as(indexid:int),$2as(clusterid:int),$6as(user:chararray),$7as(stat:chararray),$13as(queue:chararray),$32as(projectName:chararray),$52as(cpu_used:float),$55as(efficiency:float),$59as(numTh

hadoop - 任何人都可以澄清 HIVE 0.14 上的查询吗

我们在我们的应用程序中使用Hive0.14,当执行引擎在MR中时,我们能够更新ORC表,当我们设置执行引擎有TEZ并执行插入/更新/删除时,它会抛出异常“”异常:org.apache.hadoop.hive.ql.lockmgr.LockException:与Metastore通信时出错杀死DAG...java.io.IOException:org.apache.hadoop.hive.ql.lockmgr.LockException:与Metastore通信时出错在org.apache.hadoop.hive.ql.exec.Heartbeater.heartbeat(Heartbe

hadoop - MapReduce 从任务中的类路径读取文件

我在我的fatjar中捆绑了一个文件“xxx.txt.gz”我需要在每个MapTask中的每个YARN容器中引用这个文件。所以如果你看看我的jar里面:你会看到xxx.txt.gz*我正在尝试通过访问这个文件FilemappingFile=newFile(getClass().getClassLoader().getResource("xxx.txt.gz").getFile())但是,在运行时,我从所有任务尝试的日志中收到以下错误java.io.FileNotFoundException:file:/local/hadoop/1/yarn/local/usercache/USER/a

hadoop - pig 加载多个顺序文件

假设一个目录下有多个文件,如果一个把目录传给PigLoadA=LOAD'/SomeDir/'它将一次加载所有文件(我想以任何顺序......我不确定)。但是考虑文件名是否是动态的并且也是按顺序排列的,例如根据日期,如何按该顺序调用Pig加载?或者unixlistdirectory命令可以使用ls吗?/SomeDir$ls20150101.csv20150102.csv20150104.csv.......#Pigloadfilesatoncewhilekeepingtheorder 最佳答案 PigLOAD语句用于从指定位置读取输入

file - 我可以在 hdfs (hadoop) 中复制数据吗

我是hadoop的新手(v2.6.0)我在我的论文中使用hadoop(Linux)中的遗传算法。我的问题:1:我想在所有从机的hdfs位置复制文件输入(文本)(不分区文件)例如,我有一个文件(200Mb),我想将所有文件发送给从属设备。(从属设备1为200,从属设备2为200...等等)这可能吗?如果可能的话,这样做的关键是什么?2:第二个问题:我有2个slaves和1个master...当我启动时,我的程序是否默认在所有slaves中执行?或者hadoop决定哪个slave将执行程序?如果hadoop决定我如何让我的程序在所有slaves中无一异常(exception)地可执行?我希

linux - 从机上没有启动 Hadoop 组件

我正在尝试使用我的两台笔记本电脑设置多节点hadoop集群MichaelNoll教程。两台机器上的操作系统都是Ubuntu14.04。我设法在两台笔记本电脑上都设置了单节点集群,但是当我尝试使用sbin/start-all.sh在我的主人身上,奴隶根本没有反应。master上的所有五个组件都启动,但没有一个在slave上启动。我的/etc/hosts在两台PC上看起来都是这样127.0.0.1localhost192.168.178.01master192.168.178.02slave#ThefollowinglinesaredesirableforIPv6capablehosts:

hadoop - Datameer安装失败

我试图为RHEL安装以rpm包形式出现的Datameer试用版。安装已正确完成,但是当我启动服务时,出现以下错误:[root@ip-xx-xxx-xx-xx~]#/etc/init.d/das-conductorstart查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:权限被拒绝查找:无法恢复初始工作目录:

hadoop MapReduce 随机播放错误 : Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

我在尝试使用多个输入文件运行MapReduce作业时遇到以下错误。尽管我可以只使用一个输入文件来运行MapReduce作业。我浏览了一些帖子,几乎每个人都说存在防火墙问题或未在/etc/hosts文件中正确设置主机名。即使是这种情况,无论输入是单个文件还是目录(多个文件),我的MapReduce作业都会失败下面是控制台的输出。INFOinput.FileInputFormat:Totalinputpathstoprocess:2WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usin

hadoop - 通过 pig 脚本传递参数时出错

当我尝试使用属性文件调用pig脚本时出现错误:pig-P/mapr/ANALYTICS/apps/PigTest/pig.properties-fpig_if_condition.pigSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/mapr/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Foundbindingin[jar:file:/opt/mapr/hbase/hba