草庐IT

HASH_ALGORITHM

全部标签

algorithm - 关于网页排名的疑问

我正在尝试使用Mapreduce查找维基百科的内部页面排名。我在一小部分维基页面上实现了我的Pagerank算法。有6349页。我使用这个公式来计算pagerank(d=0.85)。我想验证所有pagerank的总和是否等于页面总数(6349)。到目前为止我发现了什么:1.所有6349个页面的总排名为1001.260442.根据WikiPedia如果我使用上述公式,则每个PageRank乘以N,总和变为N。我将每个页面排名乘以N(6349)并计算总和,我得到了6356789.5。页面排名总和不等于页面总数是否有原因?我应该使用第二个公式来验证吗?注意:我运行mapreduce代码10次

hadoop - 为什么我的 BroadcastHashJoin 比 Spark 中的 Shuffle Hash Join 慢

我在Spark中使用javaHiveContext执行连接。大表是1,76Gb,有1亿条记录。第二个表是273Mb,有1000万条记录。我得到一个JavaSchemaRDD并在其上调用count():Stringquery="selectattribute7,count(*)fromft,dtwhereft.chiavedt=dt.chiavedtgroupbyattribute7";JavaSchemaRDDrdd=sqlContext.sql(query);System.out.println("count="+rdd.count());如果我强制执行broadcastHashJo

algorithm - 双向 Dijkstras 和 A* 算法

我想在MapReduce中实现双向Djikstras和A*算法。我已经在MapReduce中实现了Djikstras。我想知道是否有人遇到过相同的实现? 最佳答案 很少有帮助的链接:AHadoopMapReduceSolutiontoDijkstra’sAlgorithmIterativeMapReduceandCounters你也可以看看ApacheGiraph用于执行大规模图形处理任务。GiraphShortestPathsExample 关于algorithm-双向Dijkstra

algorithm - Hadoop/MapReduce - 优化 "Top N"Word Count MapReduce 作业

我正在处理类似于规范MapReduce示例的内容-字数统计,但有一点不同,我希望只获得TopN结果。假设我在HDFS中有一组非常大的文本数据。有大量示例展示了如何构建HadoopMapReduce作业,该作业将为您提供该文本中每个单词的字数统计。例如,如果我的语料库是:"Thisisatestoftestdataandagoodonetotestthis"标准MapReduce字数统计作业的结果集将是:test:3,a:2,this:2,is:1,etc..但是,如果我仅想要获得整个数据集中使用的前3个词怎么办?我仍然可以运行完全相同的标准MapReduce字数统计作业,然后在它准备就

algorithm - 制作距离矩阵或重复计算距离

我正在研究K-medoidsalgorithm执行。它是一种聚类算法,其步骤之一包括找到聚类中最具代表性的点。原来是这样我有一定数量的集群每个簇包含一定数量的点我需要在每个聚类中找到错误最少的点,如果它被选为聚类代表的话需要计算集群中每个点到所有其他点的距离这种距离计算可以像欧几里得那样简单,也可以像两个信号之间的DTW(动态时间扭曲)一样复杂有两种方法,一种是计算距离矩阵,将保存数据集中所有点之间的值,另一种是在聚类时计算距离,结果会重复计算某些点之间的距离。一方面,要构建距离矩阵,您必须计算整个数据集中所有点之间的距离,并且永远不会使用某些计算值。另一方面,如果你不建立距离矩阵,你

algorithm - MapReduce 替代品

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭23天前。Improvethisquestion是否有MapReduce(Google、Hadoop)的替代范例?大问题的拆分合并还有其他合理的方法吗?

algorithm - MapReduce 排序算法如何工作?

用于展示MapReduce强大功能的主要示例之一是Terasortbenchmark.我无法理解MapReduce环境中使用的排序算法的基础知识。对我来说,排序只涉及确定一个元素相对于所有其他元素的相对位置。所以排序涉及将“一切”与“一切”进行比较。您的平均排序算法(快速、冒泡、...)只是以一种聪明的方式来执行此操作。在我看来,将数据集分成许多部分意味着您可以对单个部分进行排序,然后您仍然必须将这些部分集成到“完整”的完全排序的数据集中。考虑到分布在数千个系统上的TB数据集,我预计这是一项艰巨的任务。那么这到底是怎么做到的呢?这个MapReduce排序算法是如何工作的?谢谢你帮助我理

php - Symfony2 : Warning: spl_object_hash() expects parameter 1 to be object, 整数给定

实体Project和Course之间存在多对一关系,因为每门类(class)可以有很多项目,所以很多项目可能与同一门类(class)相关。这些是我的实体:classProject{/***@ORM\Id*@ORM\Column(type="integer")*@ORM\GeneratedValue(strategy="AUTO")*/protected$id;//...otherfields...//-----------------------DATABASERELATIONSHIP----------------////PROJECT-COURSE-M:1relationship/

php - $_SERVER ['REQUEST_URI' ] 也带有#hash?

如果我请求site/page.php#hash$_SERVER['REQUEST_URI']只是/page.php。有没有办法在php中(没有后来的ajax)知道用户使用#hash请求了页面?谢谢 最佳答案 简短回答:否。哈希不会传递给服务器,它只存在于客户端。这是设计使然。如果您的问题的解决方案涉及需要知道哈希服务器端,那么您选择了错误的方法。 关于php-$_SERVER['REQUEST_URI']也带有#hash?,我们在StackOverflow上找到一个类似的问题:

php - PHP 的 hash_hmac 函数的 C++ 等价物是什么?

我正在将PHP应用程序移植到C++。PHP应用程序正在使用此函数:hash_hmac—GenerateakeyedhashvalueusingtheHMACmethod如果我有这段代码,它实际上在做什么?$sStr=hash_hmac('sha256',$mydata,$mykey,$raw=true)我知道它使用sha256和我的key加密一些数据,但我如何在C++中执行此操作?我找到了hmac和sha2库,但不确定它们是否是我需要的。 最佳答案 我会考虑调查OpenSSL,一个可移植且完整的密码库(尽管它的名字,它不只是做SSL