草庐IT

taxonomy_select_nodes

全部标签

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后,当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE;对于下表:行数:~80亿列数:40,各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较,以查看系统配置是否正确。如果我错过了一些重要的事情,我深表歉意,我是Hive和Hadoop的新手。此外,如果机器数量也按比例增加,执行时间是否会与行数成线性比例? 最佳答案 提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master,另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

mysql - 错误 : When running sqoop import command on master node

我已经配置了hadoop多节点集群。当我尝试在主节点中使用sqoop将表从mysql数据库导入到配置单元时,它抛出以下错误,sqoopimport--connectjdbc:mysql://master:3306/mysql--usernameroot--passwordadmin--tablepayment--hive-import----null-string'\\N'\--null-non-string'\\N'警告:/usr/lib/hcatalog不存在!HCatalog作业将失败。Pleaseset$HCAT_HOMEtotherootofyourHCataloginsta

sql - Hive是否支持Select中的Select?

Hive中的以下代码是否可能,并进行一些更改?:insertintotablewebmapselecta.resreference,b.resresource,(selectcount(ip)fromweblogwhereresource=a.resandreferer=b.res)weightfromtoprefresajointoprefresb;我在hive-0.10.0-cdh4.5.0中运行它并得到错误:FAILED:ParseExceptionline3:1cannotrecognizeinputnear'select''count''('inexpressionspeci

计算机毕业设计选题推荐,SSM职工订餐系统小程序39894(赠送源码数据库 )上万套实战教程手把手教学JAVA、PHP,node.js,C++、python、数据可视化等

SSM职工订餐系统小程序摘要立足于当下餐饮行业现有的点餐模式,分析传统点餐的运作流程,结合小程序的特点设计新型的订餐系统。近几年,人们生活水平日益提升,但工作强度和压力不断增强,尤其是对于职工而言,到餐厅吃饭费时费力,而传统订餐系统难以适应针对性。基于此,借助SSM开发框架以及后台数据库,设计了职工订餐系统小程序,实现了用户登录、新闻资讯、菜品信息、菜品下单、菜品评论等功能,为职工的日常生活提供了较大的便利,同时职工订餐系统小程序也是信息时代发展的必然趋势。关键词:订餐系统,SSM,数据库SSMEmployeeCateringSystemMiniProgram                 

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM,每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构,我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。 最佳答案 尝试设置spark.executor.cores1

hadoop - Hortonworks 数据平台 : High load causes node restart

我已经使用HortonworksDataPlatform2.5设置了一个Hadoop集群。我正在使用1个主节点和5个从(工作)节点。每隔几天,我的一个(或多个)工作节点就会承受高负载,并且似乎会自动重启整个CentOS操作系统。重新启动后,Hadoop组件不再运行,必须通过Amabri管理UI手动重新启动。这里是“崩溃”节点的屏幕截图(大约4小时前在高负载值后重新启动):这是其他“健康”工作节点之一的屏幕截图(所有其他工作节点都具有相似的值):节点在5个工作节点之间交替崩溃,主节点似乎运行没有问题。什么会导致这个问题?这些高负载值从何而来? 最佳答案

hadoop - hive 中的 Select 语句返回一些具有空值的列

我看到很多人问过这种类型的问题,但这些解决方案对我不起作用。我创建了一个外部配置单元表,因为我的数据来自仅限map的作业输出。然后,通过加载命令我给出了特定文件的路径。它显示正常。但是当我给出select*fromtable命令时,它会返回一些具有空值的列。我执行的每个命令都在错误图片中。我在文件中的分隔符是||,所以我在创建表命令中也提到了同样的内容。这是我的输入文件图片filepic.这是errorpic.我也尝试过普通表而不是外部表。那也显示了同样的错误。我还尝试将定界符称为//||和\|\|。但没有一个奏效。 最佳答案 您面