草庐IT

java - hadoop框架上的排序算法

我在互联网上阅读了很多链接。这里有几个链接link1,link2.但我无法理解。他们到底在做什么。你能用更简单的方式解释一下这个算法吗?然后,是的,下一个问题,我想到了一种方法。告诉我它是否正确。算法-在映射器之间划分整数。映射器-所有映射器都使用基本方法(任何标准排序算法,此处不使用概念)。Reducer-当所有映射器完成他们的任务时。创建一个节点数等于映射器数量的最小堆。使用此最小堆对整个数据进行排序。(使用最小堆方法很容易对已排序列表的数量进行排序)。上述算法是否正确? 最佳答案 是的,你是对的。映射器使用快速排序和堆排序的混

java - 未处理的内部错误。 org.apache.hadoop.mapred.jobcontrol.JobControl.addJob

我在centos6上安装了pig,我是pig新手。我使用$pig-xlocal在本地模式下打开了pig。仅在执行DUMP时出错。错误消息是:错误2998:未处理的内部错误。org.apache.hadoop.mapred.jobcontrol.JobControl.addJob(Lorg/apache/hadoop/mapred/jobcontrol/Job;)Ljava/lang/String;我已经设置了JAVA_HOME,Java版本是1.7。但是没有安装hadoop。=================grunt>A=load'/etc/passwd'usingPigStorag

java - hadoop中目录存在检查结果NPE

我正在尝试验证给定路径是HDFS中的目录或文件,但它会在fs.getFileStatus(path).isDir()行产生NPE。我不明白这里有什么问题,即使我验证了不为空的路径。publicstaticclassRegexExcludePathFilterextendsConfiguredimplementsPathFilter{privateStringpath;Stringpatterns="hdfs://localhost:9100/user/input-new/ncdc/filterdata/2007.[0-1]?[0-2].[0-9][0-9].txt";Configura

hadoop - Cassandra 从 Hadoop 写入/读取

我们想从MR作业的映射器和缩减器读取/写入Cassandra。如何减少与Cassandra的连接数?.提前谢谢你弗拉迪 最佳答案 限制作业中映射器和缩减器的数量以控制连接数。每个map和reduce使用自己的jvm,因此也使用自己的连接。如果您遇到的问题是超时,请尝试减小批处理大小(cassandra.range.batch.size),请参阅http://wiki.apache.org/cassandra/HadoopSupport 关于hadoop-Cassandra从Hadoop写

Hadoop : sqoop : getting Unknown database 'sample' error even though database exist

我正在sqoop中进行基本尝试。我使用MySQL创建了一个数据库示例。我在“示例”数据库中创建了一个表customers,并向该表中插入了一些数据。在尝试使用sqoop将表导入hdfs时,我得到了Unknowndatabase'sample',即使数据库存在。使用的sqoop命令:sqoopimport--connect"jdbc:mysql://localhost:3306/sample"--usernameroot--password123456--tablecustomers--target-dirhdfs:/sqoop/customers2-m1但是这个命令显示表客户:sqoo

java - Hadoop 2.4 : java. lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo

我已经从Hortonworks升级到最新的Hadoop:Hadoop2.4.0.2.1.2.1-471Subversiongit@github.com:hortonworks/hadoop.git-r9e5db004df1a751e93aa89b42956c5325f3a4482Compiledbyjenkinson2014-05-27T18:57ZCompiledwithprotoc2.5.0Fromsourcewithchecksum9e788148daa5dd7934eb468e57e037b5Thiscommandwasrunusing/usr/lib/hadoop/hadoo

hadoop - 如何在 VM 上永久存储 hbase 表

我正在使用批量加载在VM上的HBASE中做一些简单的事情。想知道如何在HBASE中永久保留表。如果我重新启动VM表就消失了,我们是否有任何命令来永久存储它。 最佳答案 如果您以本地模式启动HBase(即使用文件系统而不是HDFS),则默认情况下所有数据都保存在/tmp中。某些Linux系统会在重启时删除/tmp(即打开和关闭虚拟机)。三种处理方式使用HDFS存储您的数据更改您的hbase-site.xml文件以指向除/tmp之外的数据位置永远、永远不要关闭您的VM(说真的,不要这样做)要设置的正确属性,引用自HBasebook:hb

hadoop - Hadoop 上的 Elasticsearch - ES 节点是否应该与 Hadoop 数据节点共置?

来自ElasticsearchforHadoopdocumentation:Wheneverpossible,elasticsearch-hadoopsharestheElasticsearchclusterinformationwithHadooptofacilitatedataco-location.Inpractice,thismeanswheneverdataisreadfromElasticsearch,thesourcenodesIPsarepassedontoHadooptooptimizetaskexecution.Ifco-locationisdesired/poss

hadoop - 元数据错误 : org. apache.thrift.transport.TTransportException

这个错误是什么意思?“元数据错误:org.apache.thrift.transport.TTransportException?”在什么情况下会出现此错误?我在创建表和将数据加载到表中时遇到此错误。 最佳答案 org.apache.thrift.transport.TTransportException,这是一个非常普遍的错误,该消息描述了hiveserver有问题并建议您查看Hive日志。如果您能够访问完整的日志堆栈并共享确切的详细信息,则可能会找到此问题的真正原因。大多数时候,我遇到这个错误就像配置单元元数据问题、无法访问配置

hadoop - hdfs-site.xml 上的配置属性是否适用于 hadoop 中的 NameNode?

最近搭建了一个hadoop的测试环境集群-一主两从Master不是dataNode(尽管有些使用master节点作为主节点和从节点)。所以基本上我有2个数据节点。复制的默认配置是3。最初,我没有更改conf/hdfs-site.xml上的任何配置。我遇到错误couldonlybereplicatedto0nodesinsteadof1。然后我在我的主从中更改了conf/hdfs-site.xml中的配置,如下所示:dfs.replication3瞧!一切正常。我的问题是:尽管我更改了所有数据节点和名称节点中的hdfs-site.xml,但此配置是否适用于名称节点或数据节点。如果我的理解