草庐IT

HADOOP_OPTS

全部标签

Hadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构

首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是关于应该如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。我有一个包含大量记录的现有RDBMS。所以我正在使用Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。我所知道的是部署了一个Hadoop2集群,如下所示192.168.X.A-名称节点192.168.X.B-第二个名称节点192.168.X.C-从站1192.168.X.D-从站2192.

hadoop - PIG TRIM 和 UPPER

我是Hadoop编程的新手,在pig中寻求帮助。我有来自simple.txt的数据,格式为,定界符。我有两个用例。我想对所有列执行ltrim(rtrim())并为所选字段转到UPPER。这是我的脚本:party=Load'/party_test_pig.txt'USINGPigStorage(',')AS(....);Trim_party=FOREACHUpper_partyGENERATETRIM(*);Upper_party=FOREACHpartyGENERATEUPPER(col1),UPPER(col2),UPPER(col3);Upper_party:将其变为大写后,我想查

hadoop - 在 Pig 中按组计算 1 和 0

这里如何计算每种类型的事件有多少个1和0?我在pig身上做了所有这些,第二个领域只有1和0。数据如下所示:(pageLoad,1)(pageLoad,0)(pageLoad,1)(appLaunch,1)(appLaunch,0)(otherEvent,1)(otherEvent,0)(event,1)(event,1)(event,0)(somethingelse,0)输出是这样的pageLoad1:2340:2359appLaunch1:540:111event1:3450:0或type10pageLoad21345appLaunch0123event23412谢谢大家。

hadoop - Hadoop Mapreduce 可以实现什么?

我正在阅读Hadoopmapreduce教程并得出以下浅层理解。谁能帮忙确认一下我的理解是否正确?Mapreduce是一种聚合数据的方法在分布式环境中在非常大的文件中使用非结构化数据使用Java、Python等产生类似于在RDBMS中使用SQL聚合函数可以完成的结果selectcount,sum,max,min,avg,k2frominput_filegroupbyk2map()方法基本上以水平数据v1为轴,它是来自将输入文件分成垂直行,每行都有一个字符串键和一个数值。分组将发生在洗牌和分区阶段数据流。reduce()方法将负责计算/聚合数据。Mapreduce作业可以组合/嵌套,就像

hadoop - Pig 或 Hive 用于文件操作

我有一个文件组成如下:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'我想获取一个文件:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'.......&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'.......我使用hortonworks,我想知道使用Hive还是PIG更好,我如何使用

java - Hadoop Java 客户端 API 弄乱了我的 fsURI

我尝试在SpringBoot应用程序的JavaAPI的帮助下访问Hadoop沙箱中的HDFS。我使用配置参数spring.hadoop.fsUri指定访问文件系统的URI。HDFS本​​身受ApacheKnox保护(对我来说它应该充当处理身份验证的代理)。因此,如果我使用curl调用代理URI,我将使用与没有ApacheKnox时完全相同的语义。示例:curl-k-uguest:guest-passwordhttps://sandbox.hortonworks.com:8443/gateway/knox_sample/webhdfs/v1?op=GETFILESTATUS问题是我无法使

java - Hadoop在Maper或Reducer端使用java连接两个不同的数据集

我有两个不同的数据集。***Comments.csv:***iduserid***Posts.csv-***idpost_typecreationdatescoreviewcountowneruseridtitleanswercountcommentcount我有显示名称,但没有。获得最高声誉的用户创建的帖子数。我知道MapReduce如何使用单个文件工作的代码。我知道如何为Job设置多个文件。但是我不知道如何在Mapper级别加入不同的数据集。我不确定我是否可以用一个Mapper连接这两个数据集。publicvoidmap(Objectkey,Textvalue,Contextcon

python - Hadoop 2.7 : MapReduce task's total time using streaming API

我在本地集群上运行Hadoop2.7.1(所有节点都运行Ubuntu14.x或更高版本)。我的mapreduce程序是用Python编写的,我正在使用流式API来运行任务。我想找出所有节点上的所有映射任务所花费的总时间。怎么做?我找不到作业文件。(可能从Hadoop2.x开始删除)。 最佳答案 如果您正在寻找在所有任务中花费的所有聚合时间总和,您可能需要查看计数器。这些可以在作业历史服务器上查看,也可以在深入了解单个作业后单击左侧的Counters,或者您可以使用mapredjob命令以编程方式更多地执行此操作,例如,要打印出SUC

hadoop - 如何在 Hadoop 中执行类似 shell 脚本的操作

我在执行剪切、尾部、排序等操作时遇到了问题,因为我能够在UnixShell环境中对文件执行这些操作。我遇到的情况是我想要我的文件中没有按时间戳排序的最高时间戳并将其存储在“X”中,然后在执行MR时将“X”作为参数传递给我的MapReducer驱动程序类工作。在本地模式下很容易做到这一点:cut-d,-f>>|sort-n|tail-1这给了我最大的时间戳。现在在分布式模式下,如何去执行这样的操作,或者换句话说,我们可以使用什么技巧来帮助解决这样的问题,我不希望触发一个MapReduce作业来找到最大时间戳,然后将它传递给另一个MapReduce作业。请建议。如果需要更多信息,请告诉我。

hadoop - hive不能在cloudera中创建角色和显示角色?

我在配置单元终端中输入命令showroles;后出现错误。请帮助我,我在hive-site.xml中添加了一些属性。我在cloudera-quickstart-5.4.2.0-vmware中工作。hive.security.authorization.enabledtrueenableordisablethehiveclientauthorizationhive.security.authorization.createtable.owner.grantsALLtheprivilegesautomaticallygrantedtotheownerwheneveratablegetscr