草庐IT

Mapreduce1

全部标签

java - Parquet 格式的 Mapreduce 错误

我正在尝试运行mapreduce作业。我的文件是parquet格式。我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/thrift/TExceptionatparquet.format.converter.ParquetMetadateConverter.readParquetMetadata(ParquetMetadateConverter.java:268)atparquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.ja

hadoop - 当对多个输入文件完成 mapreduce 任务时,hadoop 如何确定映射器或输入拆分的数量?

我有四个输入文件(CSV),大小分别为453MB、449MB、646MB和349MB。所有这些构成了1.85GB的总大小。HDFSblock大小为128MB。记录大小非常小,因为几乎没有20个字段。完成mapreduce任务后,我可以观察到16个映射器已用于我提供的输入文件:我想知道hadoop如何确定多个输入文件的映射器或输入拆分的数量? 最佳答案 除非您使用CombileFileInputFormat,否则每个文件都会单独进行拆分(基于拆分大小).假设mapreduce.input.fileinputformat.split.m

hadoop - 无法运行 mapreduce wordcount

我正在尝试自学一些hadoop基础知识,因此构建了一个简单的hadoop集群。这行得通,我可以毫无问题地从hdfs文件系统中放入ls、cat。所以我采取了下一步并尝试对我放入hadoop的文件进行字数统计,但出现以下错误$hadoopjar/home/hadoop/share/hadoop/mapreduce/*examples*.jarwordcountdata/sectors.txtresults2018-06-0607:57:36,936INFOclient.RMProxy:ConnectingtoResourceManageratansdb1/10.49.17.12:80402

java - Hadoop 和 MapReduce

我是HDFS和MapReduce的新手,正在尝试计算调查统计数据。输入文件的格式为:AgePointsSexCategory-所有4个都是数字。这是正确的开始吗:publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableAge=newIntWritable(1);privateIntWritableAgeCount=newIntWritable();publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Repo

hadoop - 弹性 MapReduce 上的 Mahout : Java Heap Space

我在AmazonElasticMapReduce集群上从命令行运行Mahout0.6,试图canopy-cluster~1500个短文档,但作业一直失败并显示“错误:Java堆空间”消息。根据之前在这里和其他地方的问题,我调高了我能找到的每个内存旋钮:conf/hadoop-env.sh:在小实例上将所有堆空间设置为1.5GB,在大实例上甚至设置为4GB。conf/mapred-site.xml:添加mapred.{map,reduce}.child.java.opts属性,并将它们的值设置为-Xmx4000m$MAHOUT_HOME/bin/mahout:增加JAVA_HEAP_MA

algorithm - 哪些类型/类别的算法可以在 MapReduce 范例中重铸?

一些“快速问题”:哪些类型/类别的算法可以在MapReduce范例中重铸?(例如k-means有一个MR实现)有没有不能这样表达的?哪些算法特征使它们在MR范式中reshape时不那么有吸引力/复杂性在此先感谢您的帮助。最大 最佳答案 我正在为来自MPI世界的一组大数据算法解决这些相同的问题。这是我的看法。MR配方的基本流程似乎是扩展/收缩。该映射应用于一个大集合,可能会创建一个更大的集合,然后使用reduce对该集合进行排序/组织,以便它可以聚合成一个合并的数据集,最好小得多。您需要的map和reduce数量是MR算法的聪明之处。

Hadoop mapreduce 程序失败,退出代码为 127

尝试运行一些hadoop程序。我看到NameNode、Datanode、Yarn集群URL启动并运行。即127.0.0.1:50070/dfshealth.jsp、localhost:8088/cluster/cluster等但是当我尝试运行我的mapreduce程序时:$hadoopMySampleProgramhdfs://localhost/user/cyg_server/input/myfile.txthdfs://localhost/user/cyg_server/output/op程序失败并显示日志:INFOmapreduce.Job(Job.java:monitorAnd

hadoop - mapreduce ---自定义数据类型

在做mapreduce程序的时候,遇到key是元组(A,B)(A和B都是整数集合),如何自定义这种数据类型?publicstaticclassMapClassextendsMapper....publicclassTupleimplementsWritableComparable{@OverridepublicvoidreadFields(DataInputarg0)throwsIOException{//TODOAuto-generatedmethodstub}@Overridepublicvoidwrite(DataOutputarg0)throwsIOException{//TO

hadoop - Sqoop 导入问题 - java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext,但接口(interface)是预期的

我正在使用Sqoop1.4.3与hadoop1.2.4和hive0.11.0当我尝试执行sqoop导入时:它抛出了IncompatibleClassChangeError。任何解决这个问题的建议..使用的Sqoop命令:sqoopimport--connectjdbc:mysql://localhost:3306/employees\--usernametest--passwordtest跟踪:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapredu

java - 如果我使用 org.apache.hadoop.mapreduce(新)API,如何配置 Hadoop MapReduce 映射器输出压缩?

是否可以在新的mapreduceAPI上打开映射器输出压缩?如果可以,请指出如何操作?我看到很多基于hadoop.mapred.JobConfAPI的示例,但没有针对mapreduceAPI的示例。如果它不能通过newAPI配置,我可以做些什么让它工作吗? 最佳答案 您可以使用以下代码启用map输出压缩:publicstaticvoidenableMapOutputCompress(Jobjob){job.getConfiguration().setBoolean("mapred.compress.map.output",true)