草庐IT

hadoop-examples

全部标签

安装和配置中的 hadoop 问题

在我尝试启动start-dfs.sh时安装hadoop后,它显示以下错误消息。查了很多发现WARN是因为我在用UBUNTU64位操作系统和hadoop是针对32位编译的。所以这不是一个需要解决的问题。但是我担心的是不正确的配置。并且也无法启动主要和次要名称节点。sameer@sameer-Compaq-610:~$start-dfs.sh15/07/2707:47:41WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereappli

hadoop - 如何将 Microsoft SQL Server 中的数据导入 HBase

我已经使用ClouderaManager和CDH5.4在集群系统(1Master,2Slaves,基于Ubuntu的高配置)上成功安装了ApacheHadoop我想将数据从MicrosoftSQL服务器导入到HBase(基于列的hadoop数据库),截至目前,我已经从SQL服务器生成CSV文件并使用HBase浏览器(ClouderaManager中的Hue应用程序)将CSV导入到HBase。如果有任何方法可以直接将SQL服务器数据导入HBase,那对我会有帮助,我听说Sqoop应用程序已经完成了将数据从RDBMS导入Hadoop系统(即使我没有尝试这个,我假设这会导入CSV文件到Had

hadoop - HBase 索引器与 Apache HBase 一起工作

我在使用ApacheHbase构建时遇到以下错误。我正在运行以下邮件mvn-ecleaninstall-DskipTests-Dhbase.api=0.98```[错误]构建错误[信息]----------------------------------------------------------------------[INFO]构建POM时出错(可能不是该项目的POM)。项目ID:null:akuma:jar:1.9原因:找不到父项目:org.kohsuke:pom项目:null:akuma:jar:1.9项目null:akuma:jar:1.9[信息]------------

Linux实战——Hadoop安装部署

大数据集群(Hadoop生态)安装部署简介1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。三类组件HadoopHDFS:提供分布式海量数据存储能力HadoopYARN:提供分布式集群资源管理能力HadoopMapReduce:提供分布式海量数据计算能力前置要求请确保完成了集群化环境前置准备即:JDK、SSH免密、关闭防火墙、配置主机名映射等前置操作JDK、防火墙配置集群化环境前置准备、SSH免密、关闭防火墙、配置主机名映射Hadoop集群角色Hadoop生态体系中总共会出现如下进程角色:HadoopHDFS的管理角色:

java - 在 ubuntu 15.04 上安装 hadoop 2.7 无法找到或加载主类

我按照来自here的命令在Ubuntu15.04上安装了Hadoop2.7.0单节点集群在命令格式化hdfs之前几乎一切正常。当我进入$hdfsnamenode-format我收到错误:CouldnotfindorloadmainclassDjava.librarary.path=.usr.local.hadoop.lib在bashrc我有#hadoopvariablesexportJAVA_HOME=/usr/lib/jvm/java-8-oracle/lib/amd64exportHADOOP_HOME=/usr/local/hadoopexportPATH=$PATH:$HADO

hadoop - hadoop在本地和分布式模式下静态变量的行为是否不同

假设我有一个静态变量分配给我的映射器中的类变量,静态变量的值取决于作业,因此它与在该作业的作业跟踪器节点中执行的一组输入拆分相同因此我可以在我的Mapper(在JobTracker节点中运行的JVM)中将作业特定变量直接分配为静态变量。对于一些不同的作业,这些值会改变,因为它是一个不同的作业,并且它自己的作业有不同的类路径变量,但我相信它不会影响前面提到的作业,因为它们在不同的JVM中运行(Jobtracker).现在如果我在本地模式下尝试这个,上面的不同作业将在同一个JVM中运行,因此当这个不同的作业将尝试覆盖我的前作业设置的作业特定类变量时,它会导致问题为了我以前的工作。所以我们可

ubuntu - Hadoop Yarn 作业跟踪器未启动

前言:我有一个网络应用程序的问题,该应用程序是由一名已离职的员工开发的。由于几乎没有关于可用实现的文档,我不确定从哪里获得更多关于该问题的信息,因此提出了这个问题。我试图找到与此问题(Hadooppseudodistributedmode-Datanodeandtasktrackernotstarting)类似的问题的解决方案。但是,由于我对hadoop的经验很少,所以我无法确定我需要修复什么才能让应用程序正常工作。场景:应用程序分为两部分:有一个运行应用程序的Tomcat服务器处理用户输入并提供mapreduce的结果作业(localhost:8080/WebApp)。localho

hadoop - 在 Ansible 中,如何访问 "number of disks"变量?

我正在研究通过Ansible模板调整MapRHadoop。根据系统上的CPU线程数调整某些内容非常容易。例如,将reduce任务设置为线程的1/4:mapred.tasktracker.reduce.tasks.maximum{{(ansible_processor_vcpus/4)|int}}一个资源建议map/reduce任务的数量应该与系统上的磁盘数量成比例。我没有看到任何可比较的变量。有一个ansible_devices数组,其中包含sda、sdb和&c。也许我可以算一下?或许应用过滤器,以便我只计算Hadoop可用的磁盘? 最佳答案

hadoop - Hive - Hbase 集成事务更新与时间戳

我是hadoop和大数据的新手,这几天只是想弄清楚将我的数据存储移动到hbase的可能性,我遇到了一个问题,你们中的一些人可能会帮助我。所以它就像,我有一个hbase表"hbase_testTable",其列族为:"ColFam1"。我已将"ColFam1"的版本设置为10,因为我必须维护此列系列的最多10次更新的历史记录。哪个工作正常。当我尝试通过具有显式时间戳值的hbaseshell添加新行时,它工作正常。基本上我想使用时间戳作为我的版本控制。所以我指定时间戳为put'hbase_testTable''1001','ColFam1:q1','1000$',3'3'是我的版本。一切正

mysql - 线程 "main"java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext 中的异常,但接口(interface)是预期的

我正在使用hadoop1.0.3和sqoop1.4.6。我正在尝试将一个表从MySQL导入到hdfs。我收到以下错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.JobContext,butinterfacewasexpectedatorg.apache.sqoop.config.ConfigurationHelper.getJobNumMaps(ConfigurationHelper.java:65)atcom.cloudera.