草庐IT

elastic-mapreduce-cli

全部标签

java - 通过Java和MapReduce构造文档项矩阵

背景:我正在尝试使用MapReduce在Hadoop上的Java中创建一个“文档术语”矩阵。文档术语矩阵就像一个巨大的表,其中每一行代表一个文档,每一列代表一个可能的单词/术语。问题陈述:假设我已经有一个术语索引列表(这样我就知道哪个术语与哪个列号相关联),那么在每个文档中查找每个术语的索引的最佳方法是什么,以便我可以逐行构建矩阵行(即逐个文档)?到目前为止,我可以想到两种方法:方法1:将术语索引列表存储在Hadoop分布式文件系统上。映射器每次读取新文档进行索引时,都会生成一个新的MapReduce作业-该文档中每个唯一单词的作业,其中每个作业都在分布式术语列表中查询其术语。这种方法

hadoop - mapreduce成功后如何删除输入文件

我们有一个系统可以接收指定目录中的文件,并定期启动一个mapreduce作业来打开文件并处理其中的文件。为了避免下次重新处理相同的文件,我们连接到RecordReader上的close()方法,以便在读取最后一个条目后将其删除。这种方法的问题(我们认为)是,如果一个特定的映射失败,下一个再次尝试它的映射器会发现原始文件已被记录读取器从第一个读取器中删除,并且它会爆炸。我们认为要走的路是等到所有映射和归约完成后再删除输入文件。这是最好的方法吗?如果是这样,我们如何从主程序中获取系统找到的所有输入文件的列表?(我们不能只删除整个输入目录,新文件可能存在)即:...job.waitForCo

java - 产生奇怪结果的简单字数统计 MapReduce 示例

我在HadoopMap/Reduce作业中遇到了一个奇怪的问题。作业正确提交、运行,但产生不正确/奇怪的结果。似乎mapper和reducer根本没有运行。输入文件转换自:121613265413212到012416813213654181322312我假设第一列是在映射器之前为对生成的键,但映射器和缩减器似乎都没有运行。当我使用旧API时,工作运行良好。下面提供了作业的来源。我使用Hortonworks作为平台。publicclassHadoopAnalyzer{publicstaticclassMapextendsMapper{privatefinalstaticIntWritab

azure - 通过 Web UI 或跨平台 CLI 创建示例 Azure Hadoop 作业?

我正在尝试使用HDInsight在Azure上使用Hadoop,但对如何在我新创建的集群上运行Hadoop作业感到有点困惑。到目前为止,我已经创建了一个HDInsight群集并为其附加了一个存储帐户。我还在我的本地OSX机器上安装了azure-cli。有一个AzuretutorialonlaunchingHadoopjobs,但它使用PowerShell,我认为它不能通过Azurecross-platformCLI获得.除了启动WindowsVirtualBox之外,是否可以通过AzureWebUI(例如像AmazonEMR提供的那样)或通过一些其他与OSX兼容的命令行参数来创建作业?

java - Parquet 格式的 Mapreduce 错误

我正在尝试运行mapreduce作业。我的文件是parquet格式。我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/thrift/TExceptionatparquet.format.converter.ParquetMetadateConverter.readParquetMetadata(ParquetMetadateConverter.java:268)atparquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.ja

hadoop - 当对多个输入文件完成 mapreduce 任务时,hadoop 如何确定映射器或输入拆分的数量?

我有四个输入文件(CSV),大小分别为453MB、449MB、646MB和349MB。所有这些构成了1.85GB的总大小。HDFSblock大小为128MB。记录大小非常小,因为几乎没有20个字段。完成mapreduce任务后,我可以观察到16个映射器已用于我提供的输入文件:我想知道hadoop如何确定多个输入文件的映射器或输入拆分的数量? 最佳答案 除非您使用CombileFileInputFormat,否则每个文件都会单独进行拆分(基于拆分大小).假设mapreduce.input.fileinputformat.split.m

hadoop - 无法运行 mapreduce wordcount

我正在尝试自学一些hadoop基础知识,因此构建了一个简单的hadoop集群。这行得通,我可以毫无问题地从hdfs文件系统中放入ls、cat。所以我采取了下一步并尝试对我放入hadoop的文件进行字数统计,但出现以下错误$hadoopjar/home/hadoop/share/hadoop/mapreduce/*examples*.jarwordcountdata/sectors.txtresults2018-06-0607:57:36,936INFOclient.RMProxy:ConnectingtoResourceManageratansdb1/10.49.17.12:80402

java - Hadoop 和 MapReduce

我是HDFS和MapReduce的新手,正在尝试计算调查统计数据。输入文件的格式为:AgePointsSexCategory-所有4个都是数字。这是正确的开始吗:publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableAge=newIntWritable(1);privateIntWritableAgeCount=newIntWritable();publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Repo

hadoop - 弹性 MapReduce 上的 Mahout : Java Heap Space

我在AmazonElasticMapReduce集群上从命令行运行Mahout0.6,试图canopy-cluster~1500个短文档,但作业一直失败并显示“错误:Java堆空间”消息。根据之前在这里和其他地方的问题,我调高了我能找到的每个内存旋钮:conf/hadoop-env.sh:在小实例上将所有堆空间设置为1.5GB,在大实例上甚至设置为4GB。conf/mapred-site.xml:添加mapred.{map,reduce}.child.java.opts属性,并将它们的值设置为-Xmx4000m$MAHOUT_HOME/bin/mahout:增加JAVA_HEAP_MA

algorithm - 哪些类型/类别的算法可以在 MapReduce 范例中重铸?

一些“快速问题”:哪些类型/类别的算法可以在MapReduce范例中重铸?(例如k-means有一个MR实现)有没有不能这样表达的?哪些算法特征使它们在MR范式中reshape时不那么有吸引力/复杂性在此先感谢您的帮助。最大 最佳答案 我正在为来自MPI世界的一组大数据算法解决这些相同的问题。这是我的看法。MR配方的基本流程似乎是扩展/收缩。该映射应用于一个大集合,可能会创建一个更大的集合,然后使用reduce对该集合进行排序/组织,以便它可以聚合成一个合并的数据集,最好小得多。您需要的map和reduce数量是MR算法的聪明之处。