草庐IT

java - 阶段 13.0 (TID 13) 中的任务 0.0 异常 java.lang.OutOfMemoryError : Java heap space

当我们使用“mahoutspark-rowsimilarity”操作时,我们正在试验问题。我们有一个包含100k行和100个项目的输入矩阵,进程抛出一个关于“Exceptionintask0.0instage13.0(TID13)java.lang.OutOfMemoryError:Javaheapspace”,我们尝试增加JAVAHEAPMEMORY、MAHOUTHEAPMEMORY和spark.driver.memory。环境版本:驯象师:0.11.1星火:1.6.0。Mahout命令行:/opt/mahout/bin/mahoutspark-rowsimilarity-i50k_

hadoop - pig 0.13.0 中的错误 2998

我刚刚安装了pig。当我跑pig时,我会遇到无穷无尽的错误,比如2017-03-1317:27:14,262[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2998:Unhandledinternalerror.Couldnotinitializeclassorg.apache.pig.tools.pigstats.PigStatsUtilpig日志代码:Hadoop版本为hadoop0.20.2cdh3u6ERROR2998:Unhandledinternalerror.org/apache/hadoop/mapreduce/task

hadoop - 在 hive 0.13 中使用 LATERAL VIEW 的子查询

我正在使用ApacheHive0.13(它支持子查询)并且我正在尝试运行一个查询,其子查询使用LATERALVIEW和explode()。我不断收到NPE:失败:NullPointerException为空我已经单独且独立地尝试了子查询,并且它工作正常。我也找不到在Hive的documentation中使用LATERALVIEW进行子查询的任何限制。所以我想知道我的查询有什么问题。你可以看到下面的查询:selectu.name,u.employmentfromusersuwhereu.idIN(SELECTdistinctsu.idFROMuserssuLATERALVIEWexplo

hadoop - 我可以在 Mac pro 2010 年中期 13 英寸处理器上运行 Hadoop 吗?

我的膝上有4gbram,我想为Hadoop升级到8gb。但我不确定这是否有效。 最佳答案 是的,你可以在这样的机器上启动我能想象到的所有Hadoop组件(即使有4GB,如果你优化得好)。我建议使用虚拟环境来完成此类任务(例如virtualbox)。但我不确定您的工作负载是否能够承受(您的工作可能很贪心)。 关于hadoop-我可以在Macpro2010年中期13英寸处理器上运行Hadoop吗?,我们在StackOverflow上找到一个类似的问题: https

java - 如何使用 JDBC 驱动程序 0.13.0 在 Hive 中设置 FetchSize

我正在针对返回100.000行的Hive/Hadoop运行查询,并且我想启用setFetchSize,一次没有那么多行,为此我正在使用HiveJDBC驱动程序。关键是相同的查询也针对postgres运行,或者实际上可能在其他关系数据库中运行,因此使用此大小功能来控制它是有意义的。问题是,当我调用方法setFetchSize时,我不断收到以下内容java.sql.SQLException:方法不受支持在org.apache.hadoop.hive.jdbc.HivePreparedStatement.setFetchSize(HivePreparedStatement.java:1229

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗?详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell,然后导入pymongo_spark,最后连接到数据库;但是,当我尝试打印“helloworld”时,由于permissiondenied'/home/.cache'问题,python无法

13、数据流图技术

第十三章数据流图技术在考试大纲中,对数据流图技术的要求是比较含糊的,并没有明确要求掌握哪些具体的知识点,仅有“数据流图的基本构成、数据字典、加工逻辑”的要求。但在考试中,这是一个非常重要的知识点,近年来已经固定作为下午考试的试题一,占15分,属于必答题。从历年的考试情况来看,本章的考点主要集中于以下几个方面。补充数据流图的缺失部分,包括补充数据流、补充外部实体、补充数据存储。数据流图的改错,包括修正数据流名称、数据流的起点与终点、删除多余数据流。附加与数据流图相关的概念简答题。数据流图(DataFlowDiagram):简称DFD,它从数据传递和加工角度,以图形方式来表达系统的逻辑功能、数据在

sql - 如何在 Hive 0.13.1 中使用 CSV 数据分解字符串列

如何改变A表的数据结构?它应该看起来像表B。我在Hive0.13.1中工作一个id|DATA6ZE,FET,UZX|50048UZC,LQY|89871LQY,E03|31579HO7,7KT,LXW,EK8|17260Bid|DATA6ZE|50048FET|50048UZX|50048UZC|89871LQY|89871LQY|31579E03|31579HO7|172607KT|17260LXW|17260EK8|17260 最佳答案 selecttrim(e.id)asid,t.datafromtlateralviewexp

hadoop - CDH社区版5.7到5.13滚动升级

谁能告诉我如何将CDH从5.7滚动升级到5.13?我在Cloudera文档中找不到很多关于CDH社区版滚动升级的信息?编辑根据下面的讨论,我可以手动停止升级、升级(通过“一键安装”)和启动节点。在如下所示的集群中3个HbaseMaster(1个主用和2个备用)4个区域服务器4个数据节点1个主要和1个辅助名称节点3期刊节点4节点管理器3名资源经理(1名事件和2名备用)组件停止、升级和启动的顺序应该是什么?是不是像下面这样:-一个接一个地停止、升级和启动所有数据节点。一个接一个地停止、升级和启动区域服务器Stop,Upgrade&Start一个一个升级HBase备用节点停止、升级和启动辅助

hadoop - 在 cloudera 5.13.0 服务没有启动

我错误地删除了/var/log/*文件夹,因为服务没有在安装在该特定节点中的Cloudera中启动。并且没有生成日志文件。在clouderamanager中没有明确的错误信息。有人可以建议我如何进一步进行。请找到下图以供您理解。提前致谢。 最佳答案 你需要像这样创建空文件夹sudomkdir-p/var/log/cloudera-scm-agentsudomkdir-p/var/log/hadoop-hdfssudomkdir-p/var/log/cloudera-scm-serversudomkdir-p/var/log/hado