草庐IT

hadoop-mapreduce

全部标签

Linux实战——Hadoop安装部署

大数据集群(Hadoop生态)安装部署简介1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。三类组件HadoopHDFS:提供分布式海量数据存储能力HadoopYARN:提供分布式集群资源管理能力HadoopMapReduce:提供分布式海量数据计算能力前置要求请确保完成了集群化环境前置准备即:JDK、SSH免密、关闭防火墙、配置主机名映射等前置操作JDK、防火墙配置集群化环境前置准备、SSH免密、关闭防火墙、配置主机名映射Hadoop集群角色Hadoop生态体系中总共会出现如下进程角色:HadoopHDFS的管理角色:

java - 在 ubuntu 15.04 上安装 hadoop 2.7 无法找到或加载主类

我按照来自here的命令在Ubuntu15.04上安装了Hadoop2.7.0单节点集群在命令格式化hdfs之前几乎一切正常。当我进入$hdfsnamenode-format我收到错误:CouldnotfindorloadmainclassDjava.librarary.path=.usr.local.hadoop.lib在bashrc我有#hadoopvariablesexportJAVA_HOME=/usr/lib/jvm/java-8-oracle/lib/amd64exportHADOOP_HOME=/usr/local/hadoopexportPATH=$PATH:$HADO

hadoop - hadoop在本地和分布式模式下静态变量的行为是否不同

假设我有一个静态变量分配给我的映射器中的类变量,静态变量的值取决于作业,因此它与在该作业的作业跟踪器节点中执行的一组输入拆分相同因此我可以在我的Mapper(在JobTracker节点中运行的JVM)中将作业特定变量直接分配为静态变量。对于一些不同的作业,这些值会改变,因为它是一个不同的作业,并且它自己的作业有不同的类路径变量,但我相信它不会影响前面提到的作业,因为它们在不同的JVM中运行(Jobtracker).现在如果我在本地模式下尝试这个,上面的不同作业将在同一个JVM中运行,因此当这个不同的作业将尝试覆盖我的前作业设置的作业特定类变量时,它会导致问题为了我以前的工作。所以我们可

ubuntu - Hadoop Yarn 作业跟踪器未启动

前言:我有一个网络应用程序的问题,该应用程序是由一名已离职的员工开发的。由于几乎没有关于可用实现的文档,我不确定从哪里获得更多关于该问题的信息,因此提出了这个问题。我试图找到与此问题(Hadooppseudodistributedmode-Datanodeandtasktrackernotstarting)类似的问题的解决方案。但是,由于我对hadoop的经验很少,所以我无法确定我需要修复什么才能让应用程序正常工作。场景:应用程序分为两部分:有一个运行应用程序的Tomcat服务器处理用户输入并提供mapreduce的结果作业(localhost:8080/WebApp)。localho

hadoop - 在 Ansible 中,如何访问 "number of disks"变量?

我正在研究通过Ansible模板调整MapRHadoop。根据系统上的CPU线程数调整某些内容非常容易。例如,将reduce任务设置为线程的1/4:mapred.tasktracker.reduce.tasks.maximum{{(ansible_processor_vcpus/4)|int}}一个资源建议map/reduce任务的数量应该与系统上的磁盘数量成比例。我没有看到任何可比较的变量。有一个ansible_devices数组,其中包含sda、sdb和&c。也许我可以算一下?或许应用过滤器,以便我只计算Hadoop可用的磁盘? 最佳答案

hadoop - Hive - Hbase 集成事务更新与时间戳

我是hadoop和大数据的新手,这几天只是想弄清楚将我的数据存储移动到hbase的可能性,我遇到了一个问题,你们中的一些人可能会帮助我。所以它就像,我有一个hbase表"hbase_testTable",其列族为:"ColFam1"。我已将"ColFam1"的版本设置为10,因为我必须维护此列系列的最多10次更新的历史记录。哪个工作正常。当我尝试通过具有显式时间戳值的hbaseshell添加新行时,它工作正常。基本上我想使用时间戳作为我的版本控制。所以我指定时间戳为put'hbase_testTable''1001','ColFam1:q1','1000$',3'3'是我的版本。一切正

mysql - 线程 "main"java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext 中的异常,但接口(interface)是预期的

我正在使用hadoop1.0.3和sqoop1.4.6。我正在尝试将一个表从MySQL导入到hdfs。我收到以下错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.JobContext,butinterfacewasexpectedatorg.apache.sqoop.config.ConfigurationHelper.getJobNumMaps(ConfigurationHelper.java:65)atcom.cloudera.

hadoop - es-hadoop(ElasticSearch-Hadoop)是如何做Hadoop的?

如果es-hadoop只是连接到HDFS的Hadoop连接器,它如何支持Hadoop分析? 最佳答案 我假设您指的是thisproject.在这种情况下,ESHadoop项目有两个方面。用于创建索引快照的HDFSES插件。但它也有各种实用程序,可以在Mapreduce、Hive、Pig、Spack等中使用,用于与Elasticsearch交互。例如,可以使用Mapreduce通过ESOutputFileFormat格式从HBase批量加载ES文档。也可以使用Mapreduce通过类似的机制从ES读取。

hadoop - 如何使用 Solr 索引目录中的所有 csv 文件?

给定一个包含数百个制表符分隔的csv文件的目录,每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或HDFS上。索引这些文件的最有效方法是什么? 最佳答案 如果你有很多文件,我认为有几种方法可以提高索引速度:首先,如果你的数据在本地磁盘上,你可以使用多线程建立索引,但需要注意,每个线程都有自己的索引输出目录。最后将它们合并成一个索引,以提高搜索速度。其次,如果你的数据在HDFS上,我觉得使用HadoopMapReduce来建立索引是非常强大的。另外,Pig或者Hive的一些UDF插件也可以很方便

java - 如何在 MapReduce hadoop 中使用 GeoLite 数据库?

我正在尝试编写一个MapReduce程序,我正在尝试使用GeoLite数据库来解析IP地址的位置。我不确定如何将数据库文件传递给映射器以及要使用哪些依赖项? 最佳答案 在MapReducehadoop中使用GeoLite数据库的一种方法是将数据库作为缓存文件传递,方法是使用:DistributedCache.addCacheFile(inputPath.toUri(),job.getConfiguration());您可以使用缓存文件将.mmdb文件传递​​给每个映射器。我用于使用GeoLite数据库的依赖项是:com.maxmin