Hadoop2

java - hadoop框架上的排序算法

我在互联网上阅读了很多链接。这里有几个链接link1,link2.但我无法理解。他们到底在做什么。你能用更简单的方式解释一下这个算法吗？然后，是的，下一个问题，我想到了一种方法。告诉我它是否正确。算法-在映射器之间划分整数。映射器-所有映射器都使用基本方法(任何标准排序算法，此处不使用概念)。Reducer-当所有映射器完成他们的任务时。创建一个节点数等于映射器数量的最小堆。使用此最小堆对整个数据进行排序。(使用最小堆方法很容易对已排序列表的数量进行排序)。上述算法是否正确？最佳答案是的，你是对的。映射器使用快速排序和堆排序的混

架上 hadoop 射器 section strong java algorithm sorting mapreduce

java - 未处理的内部错误。 org.apache.hadoop.mapred.jobcontrol.JobControl.addJob

我在centos6上安装了pig，我是pig新手。我使用$pig-xlocal在本地模式下打开了pig。仅在执行DUMP时出错。错误消息是:错误2998:未处理的内部错误。org.apache.hadoop.mapred.jobcontrol.JobControl.addJob(Lorg/apache/hadoop/mapred/jobcontrol/Job;)Ljava/lang/String;我已经设置了JAVA_HOME，Java版本是1.7。但是没有安装hadoop。=================grunt>A=load'/etc/passwd'usingPigStorag

JobControl apache pig hadoop java apache-pig

java - hadoop中目录存在检查结果NPE

我正在尝试验证给定路径是HDFS中的目录或文件，但它会在fs.getFileStatus(path).isDir()行产生NPE。我不明白这里有什么问题，即使我验证了不为空的路径。publicstaticclassRegexExcludePathFilterextendsConfiguredimplementsPathFilter{privateStringpath;Stringpatterns="hdfs://localhost:9100/user/input-new/ncdc/filterdata/2007.[0-1]?[0-2].[0-9][0-9].txt";Configura

hadoop java section path FileSystem mapreduce

hadoop - Cassandra 从 Hadoop 写入/读取

我们想从MR作业的映射器和缩减器读取/写入Cassandra。如何减少与Cassandra的连接数？.提前谢谢你弗拉迪最佳答案限制作业中映射器和缩减器的数量以控制连接数。每个map和reduce使用自己的jvm，因此也使用自己的连接。如果您遇到的问题是超时，请尝试减小批处理大小(cassandra.range.batch.size)，请参阅http://wiki.apache.org/cassandra/HadoopSupport 关于hadoop-Cassandra从Hadoop写

Cassandra hadoop section 射器

Hadoop : sqoop : getting Unknown database 'sample' error even though database exist

我正在sqoop中进行基本尝试。我使用MySQL创建了一个数据库示例。我在“示例”数据库中创建了一个表customers，并向该表中插入了一些数据。在尝试使用sqoop将表导入hdfs时，我得到了Unknowndatabase'sample'，即使数据库存在。使用的sqoop命令:sqoopimport--connect"jdbc:mysql://localhost:3306/sample"--usernameroot--password123456--tablecustomers--target-dirhdfs:/sqoop/customers2-m1但是这个命令显示表客户:sqoo

database amp sqoop section java hadoop

java - Hadoop 2.4 : java. lang.NoClassDefFoundError:org/apache/hcatalog/mapreduce/InputJobInfo

我已经从Hortonworks升级到最新的Hadoop:Hadoop2.4.0.2.1.2.1-471Subversiongit@github.com:hortonworks/hadoop.git-r9e5db004df1a751e93aa89b42956c5325f3a4482Compiledbyjenkinson2014-05-27T18:57ZCompiledwithprotoc2.5.0Fromsourcewithchecksum9e788148daa5dd7934eb468e57e037b5Thiscommandwasrunusing/usr/lib/hadoop/hadoo

NoClassDefFoundError java lib hive hadoop hcatalog

hadoop - 如何在 VM 上永久存储 hbase 表

我正在使用批量加载在VM上的HBASE中做一些简单的事情。想知道如何在HBASE中永久保留表。如果我重新启动VM表就消失了，我们是否有任何命令来永久存储它。最佳答案如果您以本地模式启动HBase(即使用文件系统而不是HDFS)，则默认情况下所有数据都保存在/tmp中。某些Linux系统会在重启时删除/tmp(即打开和关闭虚拟机)。三种处理方式使用HDFS存储您的数据更改您的hbase-site.xml文件以指向除/tmp之外的数据位置永远、永远不要关闭您的VM(说真的，不要这样做)要设置的正确属性，引用自HBasebook:hb

何在 hadoop section hbase stackoverflow hive

hadoop - Hadoop 上的 Elasticsearch - ES 节点是否应该与 Hadoop 数据节点共置？

来自ElasticsearchforHadoopdocumentation:Wheneverpossible,elasticsearch-hadoopsharestheElasticsearchclusterinformationwithHadooptofacilitatedataco-location.Inpractice,thismeanswheneverdataisreadfromElasticsearch,thesourcenodesIPsarepassedontoHadooptooptimizetaskexecution.Ifco-locationisdesired/poss

Hadoop Elasticsearch section

hadoop - 元数据错误 : org. apache.thrift.transport.TTransportException

这个错误是什么意思？“元数据错误:org.apache.thrift.transport.TTransportException？”在什么情况下会出现此错误？我在创建表和将数据加载到表中时遇到此错误。最佳答案 org.apache.thrift.transport.TTransportException，这是一个非常普遍的错误，该消息描述了hiveserver有问题并建议您查看Hive日志。如果您能够访问完整的日志堆栈并共享确切的详细信息，则可能会找到此问题的真正原因。大多数时候，我遇到这个错误就像配置单元元数据问题、无法访问配置

TTransportException transport section 配置单 hadoop hive bigdata cloudera-cdh

hadoop - hdfs-site.xml 上的配置属性是否适用于 hadoop 中的 NameNode？

最近搭建了一个hadoop的测试环境集群-一主两从Master不是dataNode(尽管有些使用master节点作为主节点和从节点)。所以基本上我有2个数据节点。复制的默认配置是3。最初，我没有更改conf/hdfs-site.xml上的任何配置。我遇到错误couldonlybereplicatedto0nodesinsteadof1。然后我在我的主从中更改了conf/hdfs-site.xml中的配置，如下所示:dfs.replication3瞧!一切正常。我的问题是:尽管我更改了所有数据节点和名称节点中的hdfs-site.xml，但此配置是否适用于名称节点或数据节点。如果我的理解

hadoop hdfs-site code section site mapreduce hdfs

134 135 136137138 139 140