草庐IT

HADOOP_NAMENODE_OPTS

全部标签

hadoop - 如何使用 Hadoop 处理 .gz 输入文件?

请允许我提供一个场景:hadoopjartest.jar测试inputFileFolderoutputFileFolder在哪里test.jar按键、时间和地点对信息进行排序inputFileFolder包含多个.gz文件,每个.gz文件约10GBoutputFileFolder包含一堆.gz文件我的问题是处理inputFileFolder中那些.gz文件的最佳方式是什么?谢谢! 最佳答案 Hadoop会自动检测和读取.gz文件。然而,由于.gz不是可拆分的压缩格式,每个文件将由单个映射器读取。最好的办法是使用另一种格式,例如Sna

hadoop - Hive "ANALYZE TABLE"如何从java执行

我需要计算配置单元表中的行数,为此我正在使用查询:ANALYZETABLEp_7COMPUTESTATISTICSnoscan我想通过java获取结果,我正在尝试下面的代码,没有运气。我得到的错误是:Exceptioninthread"main"java.sql.SQLException:Thequerydidnotgeneratearesultset!atorg.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:393)atHiveJdbcClient.main(HiveJdbcClient.java:22)

hadoop - 总结 Pig 中的值

我正在尝试提供一个输出,该输出聚合最后两个字段(计数和书籍)并将它们彼此分开(计数/书籍)以用于每个分组。目前我有分组代码,它按数组中的第一个元素分组。我不确定如何获得最后两个元素的总和并将它们相加。到目前为止,我已经发布了我拥有的代码。提前致谢!bigrams=LOAD'txt'AS(bigram:chararray,year:int,count:int,books:int);grouping=groupbigramsbybigram;STOREgroupingINTO's3://cse6242vrv3/output1.txt'; 最佳答案

Hadoop - 映射器不发出任何东西

我正在运行下面的代码,但没有生成任何输出(好吧,输出文件夹和reducer输出文件已创建,但part-r-00000文件中没有任何内容)。从日志中,我怀疑映射器没有发出任何东西。代码:packagecom.telefonica.iot.tidoop.mrlib;importcom.telefonica.iot.tidoop.mrlib.utils.Constants;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;im

java - hadoop编译——在dfs文件中

我想用下面的命令编译hadoop的例子,但是出现了错误:$mkdirwordcount_classes$javac-classpath${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar-dwordcount_classesWordCount.java$jar-cvf/usr/joe/wordcount.jar-Cwordcount_classes/.Assumingthat:/usr/joe/wordcount/input-inputdirectoryinHDFS/usr/joe/wordcount/output-outputdirecto

hadoop - 将 S3 连接器与 Cloud Dataproc 结合使用时出现 java.lang.VerifyError

我正在尝试使用S3connector与GoogleCloudDataproc我遇到了java.lang.VerifyError。这似乎发生在我没有修改过的全新集群上。这是一个例子:$hadoopfs-lss3:///Exceptioninthread"main"java.lang.VerifyError:Cannotinheritfromfinalclassatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(ClassLoader.java:760)atjava.se

hadoop - 找不到 yarn 应用程序日志

作业完成时。我可以从WebUI跟踪作业历史记录日志,但找不到来自数据节点(运行nodemanger服务)本地文件系统的日志,也找不到hdfs://user/who/.staging下的日志。我确认${yarn.nodemanger.log-dirs}已配置。yarn日志是不是自动删除了?或者有一些服务没有运行? 最佳答案 不,您可以使用命令yarnlogs-applicationIdyour_application_id检索应用程序日志。 关于hadoop-找不到yarn应用程序日志,我

hadoop程序只写逻辑,只写reducer的程序

编写一个mapreduce程序来打印文本文档中出现频率最高的单词。可以固定阈值,输出频率超过阈值的词。例如:如果thereshold=100,并且“is”在文档中出现了150次,则必须在输出中打印它。program:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*

hadoop - 如何在 Hadoop 中创建从 1..N 开始的迭代器?

我想使用Hadoop作为管理网格作业的简单系统。(我之前使用SGE和pbs/Torque执行此操作,但我们正在转向Hadoop。)我有1000个ZIP文件,每个文件包含1000个文件,总共1M个文件。我想将它们全部上传到AmazonS3。理想情况下,我想在不将文件放入HDFS的情况下执行此操作。所有文件都可以在WWW上访问。我想做的是:有一个从0..999开始的迭代器对于每个map作业,获取迭代器并:获取ZIP文件(大约500MB,因此它将被写入临时存储)阅读ZIP目录。提取每个文件并将其上传到AmazonS3。我知道如何在Java和Python中施展ZIP文件魔法。我的问题是:如何创

Hadoop YARN 集群性能调优

我想知道一些参数来加速我的YARN集群上的Spark作业。我有以下Spark/YARN配置,但我对执行速度不满意。我有很多未使用的vcores和内存。Spark配置:-spark.yarn.am.cores=2-spark.executor.memory=5g-spark.executor.cores=8yarn配置:-yarn.nodemanager.resource.memory-mb=31744-yarn.nodemanager.resource.cpu-vcores=15-yarn.scheduler.maximum-allocation-mb=31744从图片来看,在节点3和