草庐IT

HADOOP_NAMENODE_OPTS

全部标签

maven - 在 Microsoft Windows 8.1 中运行 Apache Hadoop 2.7.0

首先,我下载最新版本的HadoopApache2.7.0-src.tar.gz其次,我将它解压并移动到C。然后我使用了这个SDK7.1命令行:hdfs>mvnpackage-Pdist,native-win-DskipTests-Dtar这是我得到的输出:Downloading:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3.3/plexus-3.3.pomDownloaded:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3

java - Hadoop map reduce 从 csv 格式的 csv 文件中提取特定列

我是hadoop的新手,正在从事一个大数据项目,我必须清理和过滤给定的csv文件。就像如果给定的csv文件有200列,那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出。同样作为数据清理的一部分,我必须检查日期列的日期格式是否正确,并将所有格式更改为单一格式,如DD-MM-YYYY。到目前为止,我可以读取给定的文件,但是您能否建议如何选择特定的列以及如何检查日期格式? 最佳答案 您也可以使用ApachePig来过滤和验证日期格式。请按照以下步骤操作:将文件复制到HDFS使用加载命令和pigStorage()加载文件

hadoop - 根据条件加入并按时间范围过滤并限制为 Pig 中的第一行

我有关系A、关系B。对于A中的每一行,在关系B中可能有多个映射。说:A=(id1,type,location,gender,startDateTime)B=(id2,type,location,gender,registerStartDateTime,registerEndDateTime,value)我需要在(类型、位置和性别)和时间(startDateTime>registerStartDateTime)和(startDateTime此连接可能会从B返回具有不同值的多行。我只想选择第一个返回的行并最终输出。output=JoinAby(type,location,gender),B

java - 获取 Hadoop 集群和作业统计信息

有什么方法可以获取集群上存活(运行)、提交、失败的不同作业的详细统计信息?我还想获得每个作业的插槽利用率和每个队列的资源利用率。HadoopResourceManager的Web控制台已经做到了这一点,但我想要一些工具(具有更好的表示)或一些可以派生相同的java库。 最佳答案 尝试http://host:port/jmx以JSON格式获取(相应资源的)JMX的响应。如果您想要与工作相关的统计信息,请使用:http://:50030/jmx(在Hadoop1中,我不确定Hadoop2)。

hadoop - 使用 Pig/Python 检查 HDFS avro 格式的字段是否存在

我在HDFS中有一组以Avro格式存储的文件。其中一些有一个名为id:int的列,如下所示{"type":"record","name":"metric","fields":[{"name":"timestamp","type":"long"},{"name":"id","type":"long"},{"name":"metric","type":"string"},{"name":"value","type":"double"}]}我需要标记具有“id”列的文件(输出文件名)。有没有办法在Python中使用Pig/PythonUDF/Pig流或嵌入式Pig来完成它。我已经将Pytho

hadoop - 具有 Hadoop 高可用性的 Hive

我想了解hive如何知道哪个hadoopnamenode处于事件状态以及当事件namenode发生故障时会发生什么 最佳答案 Hive通过metatool配置为指向为HAHDFS配置的dfs.nameservices。参见https://cwiki.apache.org/confluence/display/Hive/Hive+MetaTool.dfs.nameservices是一个逻辑地址,而实际的namenodes是用dfs.ha.namenodes.[id]配置的。至于哪个Namenode处于事件状态,状态存储在Zookeep

Hadoop Map Reduce 程序进行服务调用

我想为File的每一行调用服务。我们的源文件大于50GB。迭代超过50GB的Row可能需要更多时间。是否需要编写任何内置功能或任何MapReduce程序来为每一行调用服务。由于MapReduce提供了一点并行化。是否有任何自定义工具已经构建了此需求 最佳答案 map-reduce的基本要求是任务应该并行运行而不会对单个结果产生任何影响。如果您的服务调用独立于其他内容,则可以使用mapreduce。我认为只有map就足够了,负责读取每一行并进行服务调用。但是,您也需要考虑map的另一面。您将如何处理服务调用以及最终的map。那部分决定

hadoop - 启动 spark-submit 时出错,因为 avro

我正在用spark创建一个应用程序。我在Hadoop2的HDFS中使用avro文件。我使用maven并像这样包含avro:org.apache.avroavro-mapred1.7.6hadoop2我做了一个单元测试,当我使用mvntest时,一切正常。但是当我用spark启动时提交没有!我有这个错误:Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure:Losttask1.0inst

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS,下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中?我应该将它复制到名称节点还是数据节点?dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案 您使用的是什么版本

hadoop - 使用 Collectl 监控 Hadoop 集群

我正在评估各种系统监控工具,以便使用其中一个来监控我的hadoop集群。我印象深刻的工具之一是collectl。几天以来我一直在研究它。我正在努力寻找如何在使用colmux时聚合collectl捕获的指标?比如说,我的hadoop集群中有10个节点,每个节点都将collectl作为服务运行。使用colmux我可以看到单个View中每个节点的性能指标(单行和多行格式)。太棒了!但是,如果我正在考虑集群中所有节点上的CPU、IO等聚合,该怎么办?那就是我要找的通过将每个节点的性能指标聚合到相应的集群中,我的集群整体表现如何数字,从而为我提供集群级指标而不是节点级指标。非常感谢任何帮助。谢谢