草庐IT

cluster_id

全部标签

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

分布在不同子网的Hadoop Cluster(Docker + Flannel)

我想使用Docker在多裸机集群中安装Hadoop2.3.0。我有一个主容器和一个从属容器(在第一个设置中)。当Master和Slave容器位于同一主机(因此位于同一Flannel子网)时,Hadoop可以完美运行。但是,如果主节点和从节点位于不同的裸机节点(因此,不同的法兰绒子网),它根本不起作用(我收到连接被拒绝的错误)。两个容器都可以相互ping和ssh,因此不存在连接问题。出于某种原因,hadoop似乎需要集群中的所有节点都在同一个子网中。有没有办法规避这个?谢谢 最佳答案 我认为将节点置于单独的法兰绒子网中会引入一些与NA

hadoop - 如何为查询结果添加一个整数唯一 ID - __efficiently__?

给定一个查询,select*from...(这可能是CTAS语句的一部分)目标是添加一个额外的列ID,其中ID是一个唯一的整数。select...asID,*from...附言ID不必是连续的(可能有间隙)ID可以是任意的(不必代表结果集中的特定顺序)row_number逻辑上解决了问题-selectrow_number()over()asID,*from...问题是,至少目前,全局row_number(没有partitionby)正在使用单个reducer(hive)/task(spark)实现。 最佳答案 hivesetmapr

区块链的类型与网络ID

网络名称类型ID号RPCCurrencySymbol浏览器MainNeteth主网1https://mainnet.infura.io/v3/Infura_key(Infura节点或Alchemy)ETHhttps://cn.etherscan.com/Ropsteneth测试网3https://ropsten.infura.io/v3/Infura_key(Infura节点或Alchemy)ETHhttps://ropsten.etherscan.io/Rinkebyeth测试网4https://rinkeby.infura.io/v3/Infura_key(Infura节点或Alchemy

hadoop - 使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行HiveFromSpark我的EMRSpark/Hive集群上的示例。问题使用yarn-client:~/spark/bin/spark-submit--masteryarn-client--num-executors=19--classorg.apache.spark.examples.sql.hive.HiveFromSpark~/spark/lib/spark-examples-1.3.0-hadoop2.4.0.jar就像一个魅力。但是,使用yarn-cluster:~/spark/bin/spark-submit--masteryarn-cluster--num

hadoop - 太多获取失败 : Hadoop on cluster (x2)

上周左右我一直在使用Hadoop(试图掌握它),尽管我已经能够设置多节点集群(2台机器:1台笔记本电脑和一台小型台式机)并检索结果,当我运行hadoop作业时,我似乎总是遇到“太多的获取失败”。一个示例输出(在一个简单的wordcount示例中)是:hadoop@ap200:/usr/local/hadoop$bin/hadoopjarhadoop-examples-0.20.203.0.jarwordcountsitasita-output3X11/05/2015:02:05INFOinput.FileInputFormat:Totalinputpathstoprocess:711/

java - Apache Spark : TaskResultLost (result lost from block manager) Error On cluster

我在Virtualbox上有一个带有3个从节点的Spark独立集群。我的代码在Java上,它可以很好地处理我的小输入数据集,它们的输入总共大约100MB。我将我的虚拟机RAM设置为16GB,但是当我在大输入文件(大约2GB)上运行我的代码时,在我的reduce部分处理数小时后出现此错误:Jobabortedduetostagefailure:Totalsizeofserializedresultsof4tasks(4.3GB)isbiggerthanspark.driver.maxResultSize`我编辑了spark-defaults.conf并为spark.driver.maxR

需要配置无服务器资源输出以获取API网关API ID

我有一个无服务器项目,该项目正在创建API网关API。项目中的功能之一需要为API端点生成URL。我的计划是使用serverless.yml中的资源输出获取APIID,然后创建URL,然后将其传递到lambda函数作为ENV参数。我的问题/问题是如何将APIID作为serverless.yml中的云形成输出?我试过了:resources:Outputs:RESTApiId:Description:TheidoftheAPIcreatedintheAPIgatewayValue:Ref:name-of-api但这给出了错误:TheCloudFormationtemplateisinvalid:U

java - Hadoop:如何为每个值提供一个全局唯一 ID 号作为 Mapper 中的键?

这是我想做的。现在我有一些这样的文本文件:xxx.example.comxxxabcdefyyy.example.comyyyabcdef...我想读取映射器中的文件拆分并将它们转换为键值对,其中每个值都是一个中的内容>标签。我的问题是关于key的。我可以使用url作为键,因为它们是全局唯一的。但是,由于我的工作背景,我想为每个键值对生成一个全局唯一编号作为键。我知道这在某种程度上违背了Hadoop的水平可扩展性。但是有什么解决办法吗? 最佳答案 如果您要通过MapReduce处理此类文件,我会采取以下策略:逐行使用通用文本输入格式

hadoop - 运行 jps 命令不显示 NameNode 或 Tasktracker ID,虽然它在我使用 start.sh 命令时启动

jps命令应该显示IDJPSNameNodeTaskTrackerJobTracker但我只获得了JPS及其ID。其余部分工作正常。4801Jps为方便起见,我尝试发布屏幕截图,但由于我没有10分或类似的积分,所以不允许。如果有其他方法,如果您需要查看屏幕截图来帮助我解决问题,请告诉我。此致。 最佳答案 如果您已经使用sudo启动了hadoop服务,那么您需要使用sudo权限运行JPS。$sudojps 关于hadoop-运行jps命令不显示NameNode或TasktrackerID,