草庐IT

hadoop - Hive进程内存大小

请您帮我理解Hive上下文中的512mb(以粗体突出显示)是什么?它的内存大小是多少?我在我的hive-site.xml文件中设置了exportHADOOP_HEAPSIZE=4192hadoop@master:~/hive/conf$ps-ef|grep'hive'hadoop558710Feb14?00:05:27/usr/lib/jvm/default-jdk/bin/java-Xmx4192m-Djava.net.preferIPv4Stack=true-Dhadoop.log.dir=/home/hadoop/hadoop-2.7.3/logs-Dhadoop.log.fil

hadoop - HDP 从 HDP 当前版本升级到 2.6.4 失败 - 2.6.0.3

我们有ambari集群版本-2.5.0.3(有3个主节点和3个工作节点)我们正在从HDP版本2.6.0.3升级到2.6.4版本最后阶段安装失败出现在-FinalizeUpgradePre-Check下的错误是Thefollowingcomponentswerefoundtohaveversionmismatches.Finalizewillnotcompletesuccessfully:master03.sys5dns.com:HDFS/ZKFCreportsUNKNOWNmaster01.sys5dns.com:HDFS/ZKFCreportsUNKNOWN还有:{"hosts":[

hadoop - 在字数统计程序中使用 2 个 reducer 的输出

假设具有键“the”、“sound”、“is”的键值对由reducer1处理,而具有键“it”、“right”、“sounds”的键值对是由reducer2处理。两个reducer的输出是什么?每个reducer的输出文件会先排序然后合并再排序吗?当reducer收到它们时,它是否已经按字母顺序排序,以便reducer1收到“is”、“it”、“right”,reducer2收到“the”、“sound”、“sounds”? 最佳答案 回答您的问题:reducer的输出将是其出现的单词和计数。在不同键上工作的reducer的输出永远

hadoop - 可以同时运行多少个reducer?

在Uni学习大数据,我对MapReduce的话题有点困惑。我想知道有多少reducer可以同时运行。例如,假设我们有864个reducer,有多少可以同时运行? 最佳答案 所有这些都可以同时运行,这取决于集群的状态(健康,即没有rouge/bad节点),集群的容量是多少以及集群的空闲程度。如果有其他MR作业在同一个集群上运行,那么在864个reducer中只有少数会进入运行状态,一旦容量空闲,另一组reducer将开始运行。还有一种情况有时会发生,当您的reducer/mapper不断相互抢占并占用整个内存时。在大多数情况下,作业都

hadoop - hive - 为什么 SLF4J : Class path contains multiple SLF4J bindings appears when I change output path

我需要将查询结果存储在工作流的工作区中。为此,我使用了:INSERTOVERWRITELOCALDIRECTORY'/apps/myProject/conf/oozie/workspaces/myWorkflow'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY"\n"SELECT*FROMmyTableLIMIT10;但是我得到了错误:SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/opt/cloudera/parce

hadoop - 边缘节点 hortonworks 使用

我有一个配置了HA的6节点(2个主节点+4个从节点)生产集群。实际拓扑是:大师1:活跃的HBase大师hive元存储HiveServer2HST服务器诺克斯网关事件NameNodeOozie服务器事件资源管理器WebHCat服务器动物园管理员服务器HST代理期刊节点指标监控大师2:应用时间线服务器备用HBaseMaster历史服务器InfraSolr实例指标收集器格拉法纳备用NameNode备用资源管理器Spark2历史服务器飞艇笔记本动物园管理员服务器HST代理期刊节点指标监控客户奴隶1/2/3:数据节点区域服务器HST代理节点管理器指标监控其中一个从节点包含:JournalNode

hadoop - 将文本加载到 Orc 文件

如何将文本文件加载到Hiveorc外部表中?createtableMyDB.TEST(Col1String,Col2String,Col3String,Col4String)STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat';我已经用Orc创建了上面的表格。但是从表中获取数据时显示以下错误异常失败java.io.IOException:org.apache.orc.FileFor

java - Hadoop MapReduce 在 reducer 中访问 mapper 输出数

我有一个映射器,它输出句子中的每个字母,这是键,数字1作为它的值。例如,我的映射器将“你好吗”输出为H1o1w1a1r1e1y1o1u1我的reducer接受它并使用1来计算每个字母的出现次数。例如,它会输出字母“o”作为键,输出2作为它的值,因为它出现了两次。我的问题是我想计算每个字母在句子中出现的频率。为此,我需要访问句子中字母的总数(映射器输出的数量)。我是mapreduce的新手,所以我不确定最好的方法。 最佳答案 假设您的映射器正在获取一个完整的句子,您试图在其中找到频率并且您正在使用JavaAPI,您可以通过contex

hadoop - 如何在 impala 或 hive 上读取复杂类型数组 <string>?

我尝试读取hive上的复杂类型dog.owners(array)使用以下查询selectdog_id,concat_ws(',',collect_set(owners))asownersfromdoggroupbydog_id但我收到以下错误Argument2offunctionCONCAT_WSmustbe"stringorarray",but"array>"wasfound.看起来数据类型不匹配。我试图将列所有者创建为array>但我仍然遇到同样的错误。有没有办法阅读关于hive或黑斑羚的专栏? 最佳答案 selectdog_i

hadoop - Docker SSH 连接到运行中的本地主机权限被拒绝(公钥、密码、键盘交互)

我正在为单节点hadoop容器构建一个docker容器,我在为hadoop用户设置无密码ssh登录时遇到问题(我没有使用root来运行hadoop服务)。我一直在互联网上搜索可能的修复方法,authorized_keys、/.ssh等权限看起来都不错。以下是调试日志的相关部分:debug3:authmethod_is_enabledpublickeydebug1:Nextauthenticationmethod:publickeydebug1:OfferingRSApublickey:/home/hdadmin/.ssh/id_rsadebug3:send_pubkey_testdeb