草庐IT

HADOOP_NAMENODE_OPTS

全部标签

java - 如何测量 Hadoop 中每个阶段(映射、洗牌/排序、减少)的持续时间?

Hadoop执行map、shuffle/sort和reduce阶段。我想知道每个阶段的持续时间。我的意思是,他们需要多长时间?我搜索了很多文档,但找不到任何明确的解决方案。例如,我设置配置文件并启用分析器以使用Hadoop分析器。但是没有生成结果文件“java.hprof.txt”。此外,我不确定结果文件是否包含我想要的信息。你能帮帮我吗? 最佳答案 跟踪工作进度的一种方法是查看Hadoop提供的WebUI。默认情况下,它位于http://server-adress:50030/jobtracker.jsp。您可以在其中找到有关任务

hadoop - 将 jars 复制到/home/hadoop/lib emr 时出错

我正在将我的外部jar复制到emr中的/home/hadoop/lib目录作为bootstrap进程。但是它在引导过程中显示以下错误Exceptioninthread"main"java.lang.IncompatibleClassChangeError:classcom.google.common.cache.CacheBuilder$3hasinterfacecom.google.common.base.Tickerassuperclassatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoade

hadoop - 在 cloudera impala 1.2.3 中使用 date_sub() udf 从 View 查询时出现连接重置错误

我已经编写了一个查询来在Impala中创建一个View。该View包含一个字段record_date,它是格式为yyyy-MM-ddhh:mm:ss的字符串数据类型。在尝试执行使用date_sub('2014-01-3000:00:00',1)提取先前日期记录的查询时,我收到如下错误:错误:与impalad通信时出错:TSocket读取0个字节。如果我尝试对创建的表而不是View执行相同的查询,我会得到正确的输出。感谢任何帮助。谢谢 最佳答案 这是一个错误,请升级到最新版本的Impala,因为它似乎从1.2.3开始就已修复,这是很旧

hadoop - AWS 访问 key ID 在 hadoop fs -cp 命令上失败

我试图运行hadoopfs-cp命令但收到以下错误消息:-cp:AWS访问keyID和secret访问key必须指定为s3URL的用户名或密码(分别),或者通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别)我是hadoop和s3的新手,所以任何人都可以就我应该做什么提供建议吗?谢谢! 最佳答案 请refer.去cd${HADOOP_HOME}/conf/hadoop-site.xml并添加/更新fs.s3.awsAccessKeyIdYourAWSACCESSKEYfs.s

java - 在 Hadoop map-reduce 中对连接的数据进行分组

我有两种不同类型的文件,一种是用户列表。它具有以下结构:用户ID、姓名、国家/地区ID第二种是订单列表:OrderID,UserID,OrderSum每个用户都有很多订单。我需要编写map-reducehadoop作业(在java中)并接收具有以下结构的输出:CountryID,NumOfUsers,MinOrder,MaxOrder编写两个不同的映射器(针对每种文件类型)和一个缩减器以便通过UserID连接来自两个文件的数据并接收以下结构对我来说不是问题:UserID,CountryID,UsersMinOrder,UsersMaxOrder但我不明白如何按CountryID对数据进

hadoop - 是否可以在 Hadoop 1(没有 YARN)中使用 Impala?

我在Hadoop1的限制中看到我们唯一可以使用的范例是mapreduce。如果您想使用其他范例(例如spark),则必须使用Hadoop2.0和YARN。但我有一个与Impala相关的问题。是否可以在没有YARN的情况下使用Impala?谢谢。 最佳答案 是的,Impala可以独立于YARN使用。 关于hadoop-是否可以在Hadoop1(没有YARN)中使用Impala?,我们在StackOverflow上找到一个类似的问题: https://stacko

spring - -D 参数在 hadoop jar 命令中无法识别(使用 spring)

下面是我正在运行的命令hadoopjar/-Dext.properties.dir=pathofpropertiesfile>我的spring配置有以下条目...context:property-placeholderlocation="classpath:main/resources/properties/app.properties,file:${ext.properties.dir}/app-qa.properties"但是当我运行它时,我看到下面的错误Couldnotloadproperties;nestedexceptionisjava.io.FileNotFoundExce

hadoop - 向 YARN 提交 wordcount 示例(SchedulerUtils.validateResourceRequest 的异常)

我得到以下异常:java.lang.NullPointerException:java.lang.NullPointerExceptionatorg.apache.hadoop.yarn.server.resourcemanager.scheduler.SchedulerUtils.validateResourceRequest(SchedulerUtils.java:196)atorg.apache.hadoop.yarn.server.resourcemanager.RMAppManager.submitApplication(RMAppManager.java:253)atorg

hadoop - 无法将示例文件加载到 hadoop 2.2.0

我尝试安装2.2.0伪模式,同时我尝试运行copyfromlocal来复制示例数据我现在在目标路径中使用了/input,比如-bin/hadoopfs-copyFromLocal/home/prassanna/Desktop/input/input我认为它现在可以工作了,我使用下面的方法验证了文件,bin/hadoopfs-ls/input12年3月14日09:31:57警告util.NativeCodeLoader:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类成立1项目-rw-r--r--1根超群64我还检查了datanode的uI,但它显示使用

file - Hadoop 定期生成的文件

我想使用Hadoop来处理每n分钟生成的输入文件。我应该如何处理这个问题?例如,我每10分钟收到一次美国城市的温度测量值,我想计算每周和每月每天的平均温度。PS:到目前为止,我考虑过使用ApacheFlume来获取读数。它将从多个服务器获取数据并定期将数据写入HDFS。从哪里我可以阅读和处理它们。但是我怎样才能避免一次又一次地处理相同的文件呢? 最佳答案 您应该考虑像Storm这样的大数据流处理平台(我非常熟悉,不过还有其他平台),它可能更适合您提到的聚合和指标类型。但是,无论哪种方式,您都将实现某种形式,其中包含整套已处理的数据,