草庐IT

java - Hadoop 字数统计期间出现异常

我已经成功安装了Hadoop,现在我想运行Wordcount.jar。如下图,我的源地址是/user/amir/dft/pg5000.txt,保存结果的目的地址是/user/amir/dft/output.txt。我已经从thisurl下载了.jar文件.现在我在运行以下命令时遇到此错误消息。我按照thisurl中的说明进行操作现在我的问题是“运行MapReduce作业”这一步。我该如何克服它?amir@amir-Aspire-5820TG:/usr/local/hadoop$bin/hadoopjar/usr/local/hadoop/wordcount.jarwordcount/u

hadoop - map join 期间本地任务的 Hive 内存设置

我正在使用hdinsight集群(hive版本.13)来运行一些hive查询。在mapjoin期间启动本地任务的查询之一(来自TPCH套件的查询7)由于内存不足而失败(hive中止它,因为哈希表已达到配置的限制)。Hive似乎正在为本地任务分配1GB,这个大小是从哪里获取的,我该如何增加它?2015-05-0305:38:19Startingtolaunchlocaltasktoprocessmapjoin;maximummemory=932184064我假设本地任务应该使用与映射器相同的堆大小,但事实并非如此。感谢您的帮助。 最佳答案

hadoop:错误 org.apache.pig.tools.grunt.Grunt - 错误 1000:解析期间出错。遭遇

我在我的gruntshell中使用它:customers=LOAD'hdfs://localhost:9000/pig_data_customers'USINGPigStorage(',')as(id:int,name:chararray,age:int,address:chararray,salary:double);数据在这里:[root@localhostbin]#hdfsdfs-cathdfs://localhost:9000/pig_data_customers1,Ramesh,32,Ahmedabad,2000.002,Khilan,25,Delhi,1500.003,ka

Hadoop 单节点集群在 namenode 格式化期间设置错误

我已经在Windows10中安装了ApacheHadoop2.6.0。我一直在尝试解决这个问题,但未能从我的角度理解错误或任何错误。我已正确设置所有路径,Hadoop版本在命令提示符中正确显示版本。我已经在hadoop目录中创建了temp目录,例如c:\hadoop\temp。当我试图格式化Namenode时,我得到这个错误:C:\hadoop\bin>hdfsnamenode-format18/07/1820:44:55INFOnamenode.NameNode:STARTUP_MSG:/************************************************

Java.lang.finalize 堆在 hadoop url 解析作业期间变得太大

我正在尝试浏览url列表并分析其主页的内容。为此,我有一个没有缩减器的Hadoop映射器,它获取url并将它们发送到解析器类进行解析。解析器使用Jericho'shtmlparser的流式源类读取页面内容。它实际上使用缓冲阅读器接收所述页面的内容。我让它调用流式源和缓冲读取器类的close方法,之后我的映射器调用解析器toString方法并继续到下一个url。快速内存分析显示垃圾收集器似乎无法跟上一堆终结对象。我听说过关于System.gc()可靠性的坏消息,所以我想知道是否有另一种更简洁的方法来摆脱这个巨大的finalize对象堆。 最佳答案

java - MapReduce 期间的磁盘溢出

我有一个非常基本的问题,我正在尝试寻找答案。我正在查看文档以了解在map阶段、洗牌阶段和减少阶段数据溢出到哪里?就像MapperA有16GB的RAM,但是如果为映射器分配的内存已经超过,那么数据就会溢出。数据是溢出到HDFS还是会溢出到磁盘上的tmp文件夹?在shuffle阶段,数据从一个节点流式传输到另一个节点,并存储在HDFS或临时存储位置。我问这些问题的原因是想弄清楚在工作完成后是否需要清理过程。请帮忙。 最佳答案 Mapper的中间文件(溢出文件)存储在运行Mapper的工作节点的本地文件系统中。类似地,从一个节点流向另一个

mysql - 为什么 sqoop 在从配置单元导出到 mysql 期间在数字列的 NumberFormatException 上失败

我有简单的配置单元查询INSERTOVERWRITEDIRECTORY'/tmp/test'SELECTflight,SUM(CASEWHENev=2THEN1ELSE0END)ASreqfromdata_tablegroupbyflight;输出看起来不错(在编辑器中用^A分隔)两个数字列。我已经创建了mysql表createtablehive_table(flint,evsint);最后想用sqoop把hdfs的数据导出到mysqlsqoopexport--connectjdbc:mysql://mysqlhost/dwh--usernameuser--passwordpasswo

Hadoop 似乎在对给定 reduce 调用的值进行迭代期间修改了我的关键对象

Hadoop版本:0.20.2(在AmazonEMR上)问题:我有一个在映射阶段编写的自定义key,我在下面添加了它。在reduce调用期间,我对给定键的值进行了一些简单的聚合。我面临的问题是,在reduce调用的值迭代期间,我的key发生了变化,我得到了那个新key的值。我的key类型:classMyKeyimplementsWritableComparable,Serializable{privateMyEnumtype;//MyEnumisasimpleenumeration.privateTreeMapsubKeys;MyKey(){}//forhadooppublicMyKe

hadoop - 如何读取拆分为多行的记录以及如何在输入拆分期间处理损坏的记录

我有一个日志文件如下Begin...12-07-200802:00:05---->record1incidentID:inc001description:blahblahblahowner:abcstatus:resolvedend....13-07-200802:00:05Begin...12-07-200803:00:05---->record2incidentID:inc002description:blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahbla

hadoop - Hive 在读取期间强制执行架构?

我在这里讲课时遇到的这两个语句的区别和含义是什么:1.Traditionaldatabasesenforceschemaduringloadtime.和2.Hiveenforcesschemaduringreadtime. 最佳答案 您谈到了Hadoop和其他NoSQL策略如此成功的原因之一,所以我不确定您是否希望获得论文,但它就是这样!数据分析中额外的灵active和敏捷性可能促成了“数据科学”的爆炸式增长,只是因为它通常使大规模数据分析变得更容易。传统的关系数据库在存储数据时考虑了模式。它知道第二列是一个整数,它知道它有40列,