草庐IT

client_side_validations

全部标签

hadoop - Apache Storm Hbase 版本兼容性,java.lang.NoSuchFieldError : HBASE_CLIENT_PREFETCH_LIMIT

我正在运行以下Storm设置(在Ubuntu16.464位上)。Storm:0.10.1Hadoop:2.5.2(本地伪集群)Hbase:1.1.5(本地伪集群)jar的编译器:maven通过导入函数使用默认的hbasestorm支持类:org.apache.storm.hbase.bolt.HbaseBolt和mapper.SimpleHBaseMapper。我正在尝试使用“Hbase”bolt写入Hbase数据库。在此过程中出现以下错误:016-07-3021:06:14.874b.s.util[ERROR]Asyncloopdied!java.lang.NoSuchFieldEr

hadoop - Spark 上的 hive : Failed to create spark client

我正在尝试使Spark2.1.0上的Hive2.1.1在单个实例上运行。我不确定这是正确的方法。目前我只有一个实例,所以我无法构建集群。当我在配置单元中运行任何插入查询时,出现错误:hive>insertintomcus(id,name)values(1,'ARM');QueryID=server_20170223121333_416506b4-13ba-45a4-a0a2-8417b187e8ccTotaljobs=1LaunchingJob1outof1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时,我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案 报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下,您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反,它应该是:. 关于hadoop

apache-spark - Spark 没有这个字段 METASTORE_CLIENT_FACTORY_CLASS

我正在尝试使用Java中的spark查询配置单元表。我的配置单元表位于EMR集群5.12中。Spark版本为2.2.1,Hive版本为2.3.2。当我通过ssh连接到机器并连接到spark-shell时,我能够毫无问题地查询配置单元表。但是当我尝试使用自定义jar进行查询时,出现以下异常:java.lang.IllegalArgumentException:Errorwhileinstantiating'org.apache.spark.sql.hive.HiveSessionStateBuilder':atorg.apache.spark.sql.SparkSession$.org$

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中,客户端和集群部署模式有何区别?如何设置我的应用程序要运行的模式?我们有一个包含三台机器的SparkStandalone集群,它们都装有Spark1.6.1:一台主机,也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation,我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

java - DataNode 无法连接名称节点 - "org.apache.hadoop.ipc.Client: Retrying connect to server"

我已经部署了一个具有1个名称节点和2个数据节点的Hadoop3.1.2集群。NameNode已UP,secondaryNameNode和ResourceManager也up为MasterNode,但DataNode无法连接NameNode,因此没有显示容量。我一直在尝试找出错误可能是什么,但到目前为止还没有成功。删除了域解析,因为我遇到了奇怪的错误:WARNING:AttemptingtostartallApacheHadoopdaemonsashadoopin10seconds.WARNING:Thisisnotarecommendedproductiondeploymentconf

hadoop - Map side join in Hadoop失去数据局部性优势?

我的问题与Hadoop中的Mapsidejoin有关。前几天我正在阅读ProHadoop我不明白以下句子“map-sidejoin提供了一个框架,用于对多个排序的对象执行操作数据集。虽然连接中的单个maptask失去了数据局部性的大部分优势,由于消除减少阶段和/或大大减少了reduce所需的数据量。”如果排序后的数据集存储在HDFS上,它怎么会失去数据局部性的优势?Hadoop中的作业跟踪器不会在数据集block本地化的同一位置运行任务跟踪器吗?请纠正我的理解。 最佳答案 这个说法是正确的。您不会丢失所有数据局部性,但会丢失其中的一

hadoop - CDH5 Hue Hive — 蜂蜡服务器 : Error opening session: Failed to validate proxy privilage of hue for admin

我通过Kerberos设置了一个具有安全性的Hadoop集群,Hive已经启用了Sentry。我对Hue-Hive(Beeswax)Editor有疑问。Hue无法在hive-server2日志中加载来自hive的数据和信息:2014-04-0311:36:39,814WARNthrift.ThriftCLIService(ThriftCLIService.java:GetSchemas(364))-Errorgettingcatalogs:org.apache.hive.service.cli.HiveSQLException:InvalidSessionHandle:SessionH

java - Spark 作业与 yarn-client 一起正常工作,但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时,它运行良好并给我预期的结果命令如下;./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用;命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

java - 找不到值类 : 'org.apache.hadoop.hbase.client.Result' 的序列化程序

我正在尝试从HBase中读取数据并将其保存为sequenceFile,但是得到java.io.IOException:CouldnotfindaserializerfortheValueclass:'org.apache.hadoop.hbase.client.Result'.Pleaseensurethattheconfiguration'io.serializations'isproperlyconfigured,ifyou'reusingcustomserialization.错误。我看到了两个相似的帖子:hadoopwritablesNotSerializableExcepti