草庐IT

hadoop-examples

全部标签

Hadoop - 映射器不发出任何东西

我正在运行下面的代码,但没有生成任何输出(好吧,输出文件夹和reducer输出文件已创建,但part-r-00000文件中没有任何内容)。从日志中,我怀疑映射器没有发出任何东西。代码:packagecom.telefonica.iot.tidoop.mrlib;importcom.telefonica.iot.tidoop.mrlib.utils.Constants;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;im

java - hadoop编译——在dfs文件中

我想用下面的命令编译hadoop的例子,但是出现了错误:$mkdirwordcount_classes$javac-classpath${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar-dwordcount_classesWordCount.java$jar-cvf/usr/joe/wordcount.jar-Cwordcount_classes/.Assumingthat:/usr/joe/wordcount/input-inputdirectoryinHDFS/usr/joe/wordcount/output-outputdirecto

hadoop - 将 S3 连接器与 Cloud Dataproc 结合使用时出现 java.lang.VerifyError

我正在尝试使用S3connector与GoogleCloudDataproc我遇到了java.lang.VerifyError。这似乎发生在我没有修改过的全新集群上。这是一个例子:$hadoopfs-lss3:///Exceptioninthread"main"java.lang.VerifyError:Cannotinheritfromfinalclassatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(ClassLoader.java:760)atjava.se

hadoop - 找不到 yarn 应用程序日志

作业完成时。我可以从WebUI跟踪作业历史记录日志,但找不到来自数据节点(运行nodemanger服务)本地文件系统的日志,也找不到hdfs://user/who/.staging下的日志。我确认${yarn.nodemanger.log-dirs}已配置。yarn日志是不是自动删除了?或者有一些服务没有运行? 最佳答案 不,您可以使用命令yarnlogs-applicationIdyour_application_id检索应用程序日志。 关于hadoop-找不到yarn应用程序日志,我

hadoop程序只写逻辑,只写reducer的程序

编写一个mapreduce程序来打印文本文档中出现频率最高的单词。可以固定阈值,输出频率超过阈值的词。例如:如果thereshold=100,并且“is”在文档中出现了150次,则必须在输出中打印它。program:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*

hadoop - 如何在 Hadoop 中创建从 1..N 开始的迭代器?

我想使用Hadoop作为管理网格作业的简单系统。(我之前使用SGE和pbs/Torque执行此操作,但我们正在转向Hadoop。)我有1000个ZIP文件,每个文件包含1000个文件,总共1M个文件。我想将它们全部上传到AmazonS3。理想情况下,我想在不将文件放入HDFS的情况下执行此操作。所有文件都可以在WWW上访问。我想做的是:有一个从0..999开始的迭代器对于每个map作业,获取迭代器并:获取ZIP文件(大约500MB,因此它将被写入临时存储)阅读ZIP目录。提取每个文件并将其上传到AmazonS3。我知道如何在Java和Python中施展ZIP文件魔法。我的问题是:如何创

Hadoop YARN 集群性能调优

我想知道一些参数来加速我的YARN集群上的Spark作业。我有以下Spark/YARN配置,但我对执行速度不满意。我有很多未使用的vcores和内存。Spark配置:-spark.yarn.am.cores=2-spark.executor.memory=5g-spark.executor.cores=8yarn配置:-yarn.nodemanager.resource.memory-mb=31744-yarn.nodemanager.resource.cpu-vcores=15-yarn.scheduler.maximum-allocation-mb=31744从图片来看,在节点3和

Hadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构

首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是关于应该如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。我有一个包含大量记录的现有RDBMS。所以我正在使用Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。我所知道的是部署了一个Hadoop2集群,如下所示192.168.X.A-名称节点192.168.X.B-第二个名称节点192.168.X.C-从站1192.168.X.D-从站2192.

hadoop - PIG TRIM 和 UPPER

我是Hadoop编程的新手,在pig中寻求帮助。我有来自simple.txt的数据,格式为,定界符。我有两个用例。我想对所有列执行ltrim(rtrim())并为所选字段转到UPPER。这是我的脚本:party=Load'/party_test_pig.txt'USINGPigStorage(',')AS(....);Trim_party=FOREACHUpper_partyGENERATETRIM(*);Upper_party=FOREACHpartyGENERATEUPPER(col1),UPPER(col2),UPPER(col3);Upper_party:将其变为大写后,我想查

hadoop - 在 Pig 中按组计算 1 和 0

这里如何计算每种类型的事件有多少个1和0?我在pig身上做了所有这些,第二个领域只有1和0。数据如下所示:(pageLoad,1)(pageLoad,0)(pageLoad,1)(appLaunch,1)(appLaunch,0)(otherEvent,1)(otherEvent,0)(event,1)(event,1)(event,0)(somethingelse,0)输出是这样的pageLoad1:2340:2359appLaunch1:540:111event1:3450:0或type10pageLoad21345appLaunch0123event23412谢谢大家。