草庐IT

expose_used

全部标签

java - Hadoop 错误 : Java heap space when using big dataset

我正在尝试在大型文本数据集(~3.1Tb)上运行Hadoop程序。我一直收到这个错误,而且我看不到任何日志:15/04/2913:31:30INFOmapreduce.Job:map86%reduce3%15/04/2913:33:33INFOmapreduce.Job:map87%reduce3%15/04/2913:35:34INFOmapreduce.Job:map88%reduce3%15/04/2913:37:34INFOmapreduce.Job:map89%reduce3%15/04/2913:39:33INFOmapreduce.Job:map90%reduce3%15

Hadoop Kerberos : hdfs command 'Failed to find any Kerberos tgt' even though I had got one ticket using kinit

我为Hadoop集群设置了Kerberos身份验证。当我尝试使用kinit获取kerberos票证时,它将票证存储在krb5cc_0中$sudoklistTicketcache:FILE:/tmp/krb5cc_0Defaultprincipal:hduser/stwhdrm01@FDATA.COMValidstartingExpiresServiceprincipal01/04/201810:15:1401/05/201810:15:14krbtgt/FDATA.COM@FDATA.COM但是当我尝试在命令行上列出HDFS目录时,出现以下错误:$hdfsdfs-ls/openjdkv

linux - DFS Used% : 100. 00% 从属虚拟机在 Hadoop 中关闭

我的从属虚拟机出现故障,我猜这是因为使用的DFS是100%。你能给出一个系统的方法来解决这个问题吗?是防火墙问题吗?容量问题或可能导致它的原因以及如何解决?ubuntu@anmol-vm1-new:~$hadoopdfsadmin-reportDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.15/12/1322:25:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplat

hadoop - java.net.ConnectException : Connection refused when trying to use hdfs 异常

我在尝试使用hadoophdfs命令时发现一个问题:root@ec2-35-205-125-85:~#hdfsdfs-copyFromLocal~/input/~/input/copyFromLocal:CallFromip-172-32-5-110.us-west-2.compute.internal/172.32.5.110tolocalhost:54310failedonconnectionexception:java.net.ConnectException:Connectionrefused;Formoredetailssee:http://wiki.apache.org/h

hadoop - 映射减少 : Passing external jar files using libjars option does not work

我的mapreduce程序需要外部jar文件。我正在使用“-libjars”选项提供那些外部jar文件-我使用了hadoop提供的Tool、Configured和ToolRunnerUtilities。publicstaticvoidmain(String[]args)throwsException{intres=ToolRunner.run(newConfiguration(),newMapReduce(),args);System.exit(res);}@Overridepublicintrun(String[]args)throwsException{//Configuratio

hadoop - 错误 2997 : Unable to recreate exception from backed error: while using CSVExcelStorage

错误2997:无法从支持的错误中重新创建异常。在这里,我已经解析了apache日志文件,但是当我试图将其导出为csv格式时,会发生此错误。代码和错误:grunt>STORElogsINTO'/home/cloudera/workspace/Test_log.csv'USINGorg.apache.pig.piggybank.storage.CSVExcelStorage(',','NO_MULTILINE','NOCHANGE');2015-12-2410:50:44,821[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigf

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序,但我不太明白为什么它会起作用。当初我实现UDTF的时候,Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错,所以我还是实现了它。我在那个方法里放了一个变量初始化,猜测init只做一次。该jar适用于一些更简单的场景,但如果我要将UDTF输出与UDF一起使用,则使用UDF输出来做一些事情,例如作弊的clusterby或insert,我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中,使用if检查变量是否为null,

java - Hbase 映射减少 : how to use custom class as value for the mapper and/or reducer?

我正在尝试熟悉Hadoop/HbaseMapReduce作业,以便能够正确编写它们。现在我有一个Hbase实例,其中包含一个名为dns的表,其中包含一些DNS记录。我试图制作一个简单的唯一域计数器来输出文件并且它有效。现在,我只使用IntWritable或Text,我想知道是否可以为我的Mapper/Reducer使用自定义对象。我试着自己做,但我得到了Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapre

hadoop - map 缩小 : Which is the underlying Data Structure used

我想知道如果在HadoopMapReduce中使用如此大的数据集,那么hadoop使用的数据结构是什么。如果可能,请有人向我提供hadoop中底层数据结构的详细View。 最佳答案 HDFS是Hadoop默认的底层存储平台。从某种意义上说,它与任何其他文件系统一样——它不关心文件的结构。它仅确保文件将以冗余方式保存并可快速检索。因此,作为用户,您可以完全根据自己的喜好来存储文件。MapReduce程序只是将文件数据作为输入提供给它。不一定是整个文件,而是它的一部分取决于InputFormats等。然后Map程序可以使以任何想要的方式

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行?图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行,这些节点包含RDD(或HDFS文件,这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后,我们要聚合键的值(使用reduceByKey_+_)。 最佳答案 如果