client-side-scripting

java - DataNode 无法连接名称节点 - "org.apache.hadoop.ipc.Client: Retrying connect to server"

我已经部署了一个具有1个名称节点和2个数据节点的Hadoop3.1.2集群。NameNode已UP，secondaryNameNode和ResourceManager也up为MasterNode，但DataNode无法连接NameNode，因此没有显示容量。我一直在尝试找出错误可能是什么，但到目前为止还没有成功。删除了域解析，因为我遇到了奇怪的错误:WARNING:AttemptingtostartallApacheHadoopdaemonsashadoopin10seconds.WARNING:Thisisnotarecommendedproductiondeploymentconf

hadoop - Map side join in Hadoop失去数据局部性优势？

我的问题与Hadoop中的Mapsidejoin有关。前几天我正在阅读ProHadoop我不明白以下句子“map-sidejoin提供了一个框架，用于对多个排序的对象执行操作数据集。虽然连接中的单个maptask失去了数据局部性的大部分优势，由于消除减少阶段和/或大大减少了reduce所需的数据量。”如果排序后的数据集存储在HDFS上，它怎么会失去数据局部性的优势？Hadoop中的作业跟踪器不会在数据集block本地化的同一位置运行任务跟踪器吗？请纠正我的理解。最佳答案这个说法是正确的。您不会丢失所有数据局部性，但会丢失其中的一

hadoop section 跟踪器 strong

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示？它对调整hadoop集群/pig工作流有用吗？网上是否有此类参数的列表及其值的解释？最佳答案此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值，但它实际上是一个位设置，用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身，您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS

features hadoop section code PIG_FEATURE apache-pig

java - Spark 作业与 yarn-client 一起正常工作，但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时，它运行良好并给我预期的结果命令如下；./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用；命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

yarn yarn-cluster 03 INFO gt java hadoop apache-spark spark-submit

java - 找不到值类 : 'org.apache.hadoop.hbase.client.Result' 的序列化程序

我正在尝试从HBase中读取数据并将其保存为sequenceFile，但是得到java.io.IOException:CouldnotfindaserializerfortheValueclass:'org.apache.hadoop.hbase.client.Result'.Pleaseensurethattheconfiguration'io.serializations'isproperlyconfigured,ifyou'reusingcustomserialization.错误。我看到了两个相似的帖子:hadoopwritablesNotSerializableExcepti

amp Result apache SequenceFile hadoop java apache-spark serialization hbase

Hadoop安装配置 : multiple versions side-by-side on same host

能否在同一个系统上以伪分布式的方式安装不同版本的Hadoop？其实我想探索不同版本的hadoop-1.x和hadoop-2.x的特性，我已经在运行Linux的两个不同系统上配置了hadoop-1.x和hadoop-2.x。有什么方法可以在同一台机器上配置吗？最佳答案是的，可以在同一台主机上并排安装多个版本的Hadoop软件。将不同版本的Hadoop软件提取到单独的子目录中。为不同的版本创建单独的配置文件(core-site.xml、hdfs-site.xml、yarn-site.xml等)，并将这些文件集保存在单独的目录中。确保

side side-by-side code section Hadoop hadoop2

client - Hadoop:提交作业后客户端的高 CPU 负载

我在浏览一些Hadoop指南时找不到问题的答案:我正在通过客户端计算机上的shell脚本一次性提交各种Hadoop作业(最多200个)。每个作业都通过一个JAR(相当大；大约150MB)启动。提交作业后，客户端计算机的CPU负载非常高(每个内核都在100%)，并且RAM很快变满。这样，客户端就不再可用了。我认为每个作业的计算完全在Hadoop框架内完成，作业运行时集群和客户端之间只交换一些状态信息。那么，为什么客户端会完全拉伸(stretch)？我是否以错误的方式提交Hadoop作业？每个JAR是否太大？提前致谢。最佳答案这与j

端的 client section Hadoop stackoverflow jobs cpu-usage

hadoop - pig 壳设置: automatically executing pig scripts

有没有办法在从命令行调用pig时自动运行pig脚本？我对此感到疑惑的原因是我有几个导入和定义语句，我经常反复使用这些语句来设置所有内容。是否可以在某个地方定义这个语句集合，以便当我启动pig时，它会自动执行这些行？如果这是我从文档中遗漏的微不足道的事情，我提前道歉。最佳答案是的，您当然可以从0.11版本开始这样做。您需要使用.pigbootup文件。这是一篇关于设置pigbootup文件的不错的博文http://hadoopified.wordpress.com/2013/02/06/pig-specify-a-default-

automatically executing section pig code hadoop apache-pig

rest - 来自 org.apache.hadoop.hbase.client.HConnectionManager.createConnection 的 InvocationTargetException 异常

由于上述错误，我基于tomcat的RESTAPI应用程序无法处理请求。到目前为止，我已经尝试过以下事情:检查所有的jar文件是否可用检查tomcat/webapp/目录中所有文件的权限防火墙规则Hbase是否可用但随后也出现以下异常。我正在使用包含HBase0.98.6的CDH5.3.1。有谁知道如何解决这个问题？2015-03-0305:09:02privateLog[ERROR]java.lang.reflect.InvocationTargetExceptionorg.apache.hadoop.hbase.client.HConnectionManager.createConn

InvocationTargetException HConnectionManager java springframework org rest tomcat hadoop hbase

java - 8021 连接异常失败 : java.net.ConnectException : Connection refused at org. apache.hadoop.ipc.Client.wrapException(Client.java:1095)

您好，我正在尝试配置Hadoop1.0。通过关注此博客以伪分布式模式。http://hadoop-tutorial.blogspot.de/2010/11/running-hadoop-in-pseudo-distributed.html?showComment=1337083501000#c615470573579885293.但是当我运行hadoop发行版中给出的pi示例时，我得到了标题中提到的错误。有人可以帮助我并指导我如何解决这个问题。另外，如果可能的话，请在确定问题的同时提出解决方案。这是我通过运行jps得到的结果8322Jps7611SecondaryNameNode747

java Client hadoop hdfs