草庐IT

hadoop-release

全部标签

hadoop - 从 Eclipse 发出在 Hadoop 上执行 MR 程序的问题

我在从windows上的eclipe到hadoopPseudocluster上执行mapreduce程序时遇到问题UbuntuVM在同一台机器上运行。我正在运行hadoop1.0.3。我尝试使用eclipseJuno以及使用eclipseplugin1.0.3的Ganymede,但没有成功。每当我将LinuxVM添加为mapreduce位置时,我都会收到连接错误。我也试过像下面这样直接通过配置设置属性,但没有成功。我将其作为java应用程序运行。Configurationconf=newConfiguration();conf.set("fs.default.name","hdfs:/

hadoop - Hive 与 hbase-0.95.0 的集成

我正在使用Hadoop-1.2.0、HBase-0.95.0-Hadoop1并尝试将Hive-0.11.0集成到其中。Hadoop和HBase正在运行。我能够连接到Hive并在Hive中独立执行语句。但是当我尝试通过Hive在HBase中创建表时,出现以下异常:kanmani@kanmani-VirtualBox:~/hadoop$jps6695HRegionServer2640DataNode7301Jps2969JobTracker6404HMaster3192TaskTracker2861SecondaryNameNode2413NameNode6508Main6368HQuor

hadoop - 用于单行和多行日志的自定义 RecordReader

我正在尝试创建一个MR作业,它将更改通过Flume加载到HDFS中的日志文件的格式。我正在尝试将日志转换为一种格式,其中字段由“:::”分隔。例如date/timestamp:::log-level:::rest-of-log我遇到的问题是有些日志是单行的,有些是多行的,我需要在日志的其余字段中保持多行日志的完整性。我已经编写了一个自定义的InputFormat和RecordReader来尝试执行此操作(基本上只是修改了NLineRecordReader以追加行,直到它到达日期戳,而不是附加固定数量的行)。我用来格式化日志的MR作业似乎工作正常,但RecordReader似乎无法正常工

c++ - Hadoop C++,运行wordcount示例时出错

我试图在Hadoop1.0.4和Ubuntu12.04上用C++运行wordcount示例,但出现以下错误:命令:hadooppipes-Dhadoop.pipes.java.recordreader=true-Dhadoop.pipes.java.recordwriter=true-inputbin/input.txt-outputbin/output.txt-programbin/wordcount.错误信息:13/06/1413:50:11WARNmapred.JobClient:Nojobjarfileset.Userclassesmaynotbefound.SeeJobCon

hadoop - 在 hadoop 集群中添加新的数据节点

我设置了3节点集群,运行良好。现在我想再添加一个节点到这个集群。我试过了,但是新节点没有添加到集群中。我的问题是在哪里可以找到此类问题的异常消息。如果我启动数据节点守护进程,它将在新节点中再启动一个,但如果我连接到集群,名称节点将停止数据节点守护进程。因为我猜是一些配置或目录权限问题,所以我怎样才能找出这些错误?这些错误在哪个日志文件中可用?异常:----------------013-06-1418:20:33,987INFOorg.apache.hadoop.hdfs.server.namenode.NameNode:NameNodeupat:master/192.168.0.13

hadoop - 我可以通过 vmware 格式化磁盘吗?

我在vmware上安装了ubuntu12.04,在ubuntu上安装了mapr单节点。当我想格式化磁盘时,出现错误:/opt/mapr/server/disksetup-F/tmp/disks.txtthe输出是:2013-06-1816:34:02,8910ERRORGlobalmrconfig.cc:2411x.x.0.0:0InitDiskfailedDeviceorresourcebusy.(16).InitDisk/dev/sda7InitDiskresp:status16Diskinit/dev/sda7failed.Error16,Deviceorresourcebusy

hadoop - 并发执行mapreduce引发Classcastexception

我正在使用hadoop-core-1.2.0。我正在尝试执行8个并发map-reduce作业。ExecutonService用于提交作业。但是当程序运行时,它给出了以下异常java.lang.Exception:java.lang.ClassCastException:org.apache.hadoop.mapreduce.lib.input.FileSplitcannotbecasttoorg.apache.hadoop.mapred.InputSplitatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.

hadoop - 在 Pig 中过滤分组值

我有一个正在分组的关系。我怎样才能像map一样访问分组值?data=load'log.txt'as(id:chararray,name:chararray);grouped=groupdatabyid;foreachdata{filtered=filtergroupbygroup.id=data.id;};我尝试迭代组并过滤结果包的一种方法。但我的情况是我必须迭代一个外部元组,然后必须从这些结果中从分组值中获取相应的包。我尝试了嵌套的foreach,但出现以下异常,expressionisnotaprojectexpression:(Name:ScalarExpression)Type

hadoop - 文本文件与序列文件

在hadoop中,我只是使用这两种格式来评估配置单元查询的性能。当我对存储为文本文件的表进行查询时,我得到的结果比存储为序列文件的结果早。但它不应该是其他方式吗?另外,仅供引用,我首先将数据加载到TEXT文件表中,然后将数据传输到SEQUENCEFILE表中。创建表文本(酸性整数,值字符串,id整数)以“~”终止的行格式分隔字段存储为文本文件;创建表seq(acidint,valuestring,idint)存储为序列文件;加载数据本地输入路径'-----'覆盖到表文本中;insertintotableseqselect*fromtext;TextFILE:Timetaken:36.2

windows - 在 Hadoop 上格式化名称节点 - Windows 7

我正在尝试使用Cygwin在Windows7上安装Hadoop。我已经安装了Cygwin并且可以在没有密码的情况下登录sshlocalhost。我已经改变了hadoop-env.sh如下:exportJAVA_HOME=C:\\Progra~1\\Java\\jre7在我的系统变量中,我将JAVA_HOME设置为:C:\Progra~1\Java\jre7和PATH设置为:%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;%SYSTEMROOT%\System32\WindowsPowerShell\v1.0\;