草庐IT

with_numbers

全部标签

mongodb - Spark with Mongo DB : java. lang.IncompatibleClassChangeError:实现类

我正在尝试使用Scala将示例MongoDB集合加载到Spark,然后将RDD保存到文本文件。以下是我的代码:valsc=newSparkContext(conf)valmongoConfig=newConfiguration()mongoConfig.set("mongo.input.uri","mongodb://localhost:27017/myDB.myCollectionData")valsparkConf=newSparkConf()valdocuments=sc.newAPIHadoopRDD(mongoConfig,//ConfigurationclassOf[Mon

hadoop - 避免 "The number of tasks for this job 100325 exceeds the configured limit"错误

我有一个每周在生产集群上运行的Pig脚本。在上次运行中我得到了以下错误org.apache.pig.backend.executionengine.ExecException:ERROR6017:Jobfailed!Error-Jobinitializationfailed:java.io.IOException:Thenumberoftasksforthisjob100325exceedstheconfiguredlimit100000atorg.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:719)a

hadoop - Spark 错误 : Server IPC version 9 cannot communicate with client version 4

我运行的是hadoop2.7.0版本、scala2.10.4、java1.7.0_21和spark1.3.0我创建了一个如下所示的小文件hduser@ubuntu:~$cat/home/hduser/test_sample/sample1.txtEid1,EName1,EDept1,100Eid2,EName2,EDept1,102Eid3,EName3,EDept1,101Eid4,EName4,EDept2,110Eid5,EName5,EDept2,121Eid6,EName6,EDept3,99运行以下命令时出现错误。scala>valemp=sc.textFile("/hom

java - 如何更新 "Practical Graph Analytics with Apache Giraph"示例以在当前 Cloudera Quickstart VM 上运行

我是Hadoop/Giraph和Java的新手。作为任务的一部分,我在其上下载了ClouderaQuickstartVM和Giraph。我正在使用这本书,名为“使用ApacheGiraph进行实用图形分析;作者:Shaposhnik、Roman、Martella、Claudio、Logothetis、Dionysios”,我尝试从中运行第111页上的第一个示例(TwitterFollowershipGraph)。编辑:显然,书中的示例(2015年出版)所依赖的Hadoop版本比当前(2017年)版本的ClouderaQuickstartVM提供的版本要旧得多。如何让示例运行?原帖:运行

Hadoop 基础 :Number of map tasks mappers reduce tasks reducers

映射器和映射任务有什么区别?同样,reducer和reduce任务?此外,在执行mapreduce任务期间如何确定映射器、maptasks、reducer、reducetasks的数量?如果有的话,给出它们之间的相互关系。 最佳答案 简单来说maptask就是Mapper的一个实例。Mapper和reducer是mapreduce作业中的方法。当我们运行mapreduce作业时,生成的map任务数取决于输入中的block数(block数取决于输入拆分)。然而,reduce任务的数量可以在mapreduce驱动程序代码中指定。可以通过

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群,将(日志)数据存储在hdfs中。我们获取csv格式的数据,每天一个文件。在hadoop中对这些文件运行MR作业没问题,只要文件的“架构”(尤其是列数)不变即可。但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是,这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet,并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

hadoop - Importtsv 命令给出 : Container exited with a non-zero exit code 1 error

我正在尝试将tsv文件加载到现有的hbase表中。我正在使用以下命令:/usr/local/hbase/bin$hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,cf:value'-Dtable_name.separator=\t'Table-name/hdfs-path-to-input-file但是当我执行上面的命令时,出现如下错误Containerid:container_1434304449478_0018_02_000001Exitcode:1Stacktrace

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统,但磁盘空间很大(200TB)。在我的pig脚本中,我每月加载几个文件,每个文件的大小约为200Gb。我注意到,如果我在我的pig脚本中加载大约一年的数据,Pig会创建大约15k个mappers,整个过程大约需要3个小时(包括reduce步骤)。相反,如果我加载三年的数据(大约5TB),那么Pig会创建大约30k个mappers,基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈?或者我应该使用一些默认选项?我的pig脚本非常基本:我分组,我数数。非常感谢! 最佳答案

hadoop - pig : Count number of keys in a map

我想计算Pigmap中键的数量。我可以编写UDF来执行此操作,但我希望有更简单的方法。data=LOAD'hbase://MARS1'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('A:*','-loadKeytrue-caching=100000')AS(id:bytearray,A_map:map[]);在上面的代码中,我想基本上构建id的直方图以及该键在列族A中有多少项。怀着希望,我尝试了c=FOREACHdataGENERATEid,COUNT(A_map);但不出所料,这没有奏效。或者,也许有人可以建议一个更好的方

hadoop - 运行时异常 : Error in configuring object with null pointer exception while running my UDAF?

我一直在尝试编写一个UDAF来计算加权平均值。我用类似于现有UDAF的方式编写它来计算平均值,但它似乎只适用于我的本地机器。我不确定出了什么问题....有人遇到过类似的问题吗以下是生成的错误:java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)atorg.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)