heaps-algorithm

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点，3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上，它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个，query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

algorithm - map-reduce如何用于倒排索引搜索？

很容易理解如何使用map-reduce来收集文本并构建一个大的倒排索引。但是map-reduce如何用于倒排索引搜索呢？最佳答案建立一个大的倒排索引，对吧。但不是用于搜索。MapReduce是批处理。我很确定您不想等到MapReduce作业在2mio上运行。项目并对它们进行评分，之后必须运行另一个作业并对分数进行降序排序。但这只是Hadoop的情况。也许如果您在MongoDB中使用MapReduce，这可能是准确的。但是仍然有很多开销。关于algorithm-map-reduce如

倒排 map-reduce section algorithm full-text-search hadoop mapreduce information-retrieval

hadoop - 弹性 MapReduce 上的 Mahout : Java Heap Space

我在AmazonElasticMapReduce集群上从命令行运行Mahout0.6，试图canopy-cluster~1500个短文档，但作业一直失败并显示“错误:Java堆空间”消息。根据之前在这里和其他地方的问题，我调高了我能找到的每个内存旋钮:conf/hadoop-env.sh:在小实例上将所有堆空间设置为1.5GB，在大实例上甚至设置为4GB。conf/mapred-site.xml:添加mapred.{map,reduce}.child.java.opts属性，并将它们的值设置为-Xmx4000m$MAHOUT_HOME/bin/mahout:增加JAVA_HEAP_MA

MapReduce hadoop JobClient mapred INFO heap-memory amazon-emr mahout

algorithm - 哪些类型/类别的算法可以在 MapReduce 范例中重铸？

一些“快速问题”:哪些类型/类别的算法可以在MapReduce范例中重铸？(例如k-means有一个MR实现)有没有不能这样表达的？哪些算法特征使它们在MR范式中reshape时不那么有吸引力/复杂性在此先感谢您的帮助。最大最佳答案我正在为来自MPI世界的一组大数据算法解决这些相同的问题。这是我的看法。MR配方的基本流程似乎是扩展/收缩。该映射应用于一个大集合，可能会创建一个更大的集合，然后使用reduce对该集合进行排序/组织，以便它可以聚合成一个合并的数据集，最好小得多。您需要的map和reduce数量是MR算法的聪明之处。

algorithm MapReduce section 的 li parallel-processing hadoop

algorithm - All 对图形上的所有路径

这可能是一个可能没有最佳解决方案的问题。假设我有一个有向图，不知道它是否有任何循环(循环检测将是这个问题的一个方面)。给定一组顶点(可能有数百万个顶点)，我需要计算给定图形的所有唯一对之间的所有不同路径(没有重复顶点的路径)。我将如何处理这种情况？让我们看看一个蛮力的方法来做到这一点:计算图中所有可能的对。对于每对图，使用DFS获取从Source到目的地。假设这些对在哈希表中表示，将路径计数作为该对的值。对其余的对重复上述操作。人们能指出哪些地方可能会出错吗？让我们以这种方式思考这个问题，找到地球上所有城市之间的所有不同路径的计算挑战是什么？如果有人试图解决这个问题，应该从哪里开始？编

algorithm All section 的邻接 path runtime hadoop graph-traversal

algorithm - mapreduce中是否有可以并行执行的非交换reducer？

某些运算(例如中位数和均值)是不可交换的。在这种情况下似乎只能有一个reducer，因为reducer需要具有全局View。map-reduce中是否有可以并行执行的非交换reducer？当遇到非交换操作时，人们真的会使用map-reduce吗？或者只是在一些非常强大的机器上运行它？是否有将非交换运算分解为交换运算的通用方法？谢谢最佳答案我不知道“交换”这个词用在这里是否合适，但我明白你在说什么。在hadoop中，post-mapping阶段其实分为两步:Combiner和Reducer，签名相同。Combiner在映射器上运行

algorithm mapreduce code section 射器 hadoop parallel-processing distributed-computing

algorithm - 关于网页排名的疑问

我正在尝试使用Mapreduce查找维基百科的内部页面排名。我在一小部分维基页面上实现了我的Pagerank算法。有6349页。我使用这个公式来计算pagerank(d=0.85)。我想验证所有pagerank的总和是否等于页面总数(6349)。到目前为止我发现了什么:1.所有6349个页面的总排名为1001.260442.根据WikiPedia如果我使用上述公式，则每个PageRank乘以N，总和变为N。我将每个页面排名乘以N(6349)并计算总和，我得到了6356789.5。页面排名总和不等于页面总数是否有原因？我应该使用第二个公式来验证吗？注意:我运行mapreduce代码10次

algorithm 排名 strong section 维基 hadoop mapreduce pagerank

algorithm - 双向 Dijkstras 和 A* 算法

我想在MapReduce中实现双向Djikstras和A*算法。我已经在MapReduce中实现了Djikstras。我想知道是否有人遇到过相同的实现？最佳答案很少有帮助的链接:AHadoopMapReduceSolutiontoDijkstra’sAlgorithmIterativeMapReduceandCounters你也可以看看ApacheGiraph用于执行大规模图形处理任务。GiraphShortestPathsExample 关于algorithm-双向Dijkstra

algorithm Dijkstras section noreferrer MapReduce graph hadoop graph-algorithm

algorithm - Hadoop/MapReduce - 优化 "Top N"Word Count MapReduce 作业

我正在处理类似于规范MapReduce示例的内容-字数统计，但有一点不同，我希望只获得TopN结果。假设我在HDFS中有一组非常大的文本数据。有大量示例展示了如何构建HadoopMapReduce作业，该作业将为您提供该文本中每个单词的字数统计。例如，如果我的语料库是:"Thisisatestoftestdataandagoodonetotestthis"标准MapReduce字数统计作业的结果集将是:test:3,a:2,this:2,is:1,etc..但是，如果我仅想要获得整个数据集中使用的前3个词怎么办？我仍然可以运行完全相同的标准MapReduce字数统计作业，然后在它准备就

MapReduce algorithm code String LongWritable hadoop

java.lang.OutOfMemoryError : Java heap space with hive 错误

我使用了hadoophive0.9.0和1.1.2以及netbeans，但是我收到了这个错误，我无法解决这个问题请帮我代码:publicclassHive_test{privatestaticStringdriverName="org.apache.hadoop.hive.jdbc.HiveDriver";@SuppressWarnings("CallToThreadDumpStack")publicstaticvoidmain(String[]args)throwsSQLException{try{Class.forName(driverName);}catch(ClassNotFo

OutOfMemoryError space hive java apache sql hadoop netbeans

43 44 454647 48 49