相似性_草庐IT

java - 如何对 hadoop mapreduce 作业的键使用相似度算法

我需要实现以下问题:我正在获取类型的数据publicclassData{privateStringkey;privateStringvalueData;}我需要编写一个mapreduce作业来获取所有unique键，每个键都有一个(随机)valueData。对于hadoop来说听起来很简单，是的，我知道如何实现它。但真正的问题是，我还需要减少所有“similar”键。并且输出应该是与dataValue之一相似的key之一在hadoop中实现它的最佳方式(以及如何)是什么？我还希望能够灵活地更改相似度算法。最佳答案看看MinHas

hadoop - 在对多行数据集使用 Pig 时对相似值执行计数

我是PIG的新手，正在尝试解决多行输入(网站)的字数统计(网站)问题。例如我的输入数据集有值输入数据Emailwebsitese1web1web2web3web1....e2web2web3web2web2web4...e3web1web2web1web4.....我想要的输出将是Emailwebsitese1web1(2)web2(1)web3(1)....e2web2(3)web3(1)web4(1)...e3web1(2)web2(1)web4(1).....在我的数据集中，我有将近50000个电子邮件ID(用户) 最佳答案

多行 hadoop web code web2 apache-pig using multiline word-count

hadoop - 合并串联的 PIG 输入文件中的相似组

我有一个每天运行的Pig作业，跟踪一些用户帐户，其中每个用户每天都有一些交易。作为流程的一部分，这个PIG每天写出按用户分组的交易(另外使用Avro)。我现在想将每个用户帐户和进程一周(或更长时间)的所有交易分组在一起。我可以在PIG中通过暴力执行此操作，但似乎必须有比展平和重新分组所有交易更好的方法。更详细...有效的起点...(a是用户，(b,c)和(d,e)表示两个转换，如(f,g)和(h,i)我在读...(a,{(b,c),(d,e)})--Fromfirstfile-Monday(a,{(f,g),(h,i)})--fromsecondfile-Tuesday我要...(a,

hadoop PIG code pre section apache-pig

algorithm - 对于相似图像有什么好的最近邻算法吗？

我正在寻找一种可以在大型集合中搜索相似图像的算法。我目前正在使用SURFimplementation在OpenCL中。一开始我用的是KNN搜索算法将每个图像的兴趣点与集合的其余部分进行比较，但测试表明它不能很好地扩展。我还尝试了KNN-Join的Hadoop实现这在HDFS中确实占用了大量临时空间，与输入数据量相比太多了。事实上，由于我的输入向量(64)的维度，成对距离方法并不合适。我听说过LocallySensitiveHashing，想知道是否有任何免费的实现，或者是否值得实现它，也许还有另一种我不知道的算法？最佳答案 IIR

algorithm 对于 section noreferrer noopener hadoop hash surf knn

hadoop - 使用项目相似度 hadoop 作业具有预先计算的项目相似度的基于可扩展实时项目的 mahout 推荐器？

我有以下设置:bool数据:(userid,itemid)基于hadoop的mahoutitemSimilarityJob具有以下参数:--similarityClassnameSimilarity_Loglikelihood--maxSimilaritiesPerItem50&others(input,output..)基于项目的bool推荐器:-模型MySqlBooleanPrefJDBCDataModel-相似性MySQLJDBCInMemoryItemSimilarity-candidatestrategyAllSimilarItemsCandidateItemsStrateg

hadoop 预先的 section rescorer machine-learning mahout

hadoop - 使用 mahout mapreduce 计算用户相似度

我正在使用Mahout集群，我有大型集群，每个集群有大约10万个用户，每个用户有5个功能。在下一步中，我需要计算皮尔逊相关性以找到集群用户之间的相似性。目前我有一个python脚本，它对我做同样的事情，但正如预期的那样，它需要很长时间的计算并且不再是一个可行的选择我查看了Mahout，因为它提供了使用Pearson、Tanimoto、loglikelyhood度量来查找UserSimilarity的功能，但我找不到的是开发这些相似性度量的Mapreduce版本的方法。是否有任何资源可以举个例子并向我解释如何开发UserSimilarity的mapreduce版本，或者使用hadoop流

mapreduce hadoop br strong cluster-analysis data-mining mahout

php - PHP 和 Paw REST 客户端之间的哈希值不相似

我正在构建一个HMACAPI，但我在使用Paw测试散列时遇到了问题。在Paw上我有这个负载:GET:/hello/world:"":9a6e30f2016370b6f2dcfb6880501d7f2305d69bout和一个自定义HMAC-SHA256变量(实际上函数likethis将其设置在X-Hashheader中。X-Hash:4Cq2yehWumDcUk1dYyfhm6qWjJVBkOCB8o12f5l0WGE=在我的PHPAPI中我有同样的东西:GET:/hello/world:"":9a6e30f2016370b6f2dcfb6880501d7f2305d69bout并使用

REST php 39 gt hmacManager hmac sha256 paw-app

php - php 中的 "->"是否与 javascript 中的 "."相似(也称为等效)？

换句话说，php$object->method();和$object->property='someValue';相当于，js:$object.method();和$object.property='someValue';我很好奇，还是我对php和js的理解搞砸了？最佳答案相似，却又如此不同。一个大——但不是唯一的!--区别在于，在PHP中，方法绑定(bind)到一个类的实例，而在JavaScript中，方法只是函数(第一类值)恰好由(“存储在”)对象的属性命名。由于PHP方法绑定(bind)到类的实例，这意味着$this不会根

amp 等效 code section object php javascript

php - 地穴为两个不同(相似)的密码返回相同的哈希值

我在使用crypt()时遇到问题，如果用户有密码(本例中为password1)，并且他们将其更改为password2，则散列会返回相同的结果。您可以在此处进行测试:旧链接输入password1作为当前密码，输入password2作为新密码并确认密码，您将看到结果。如果输入完全不相似的密码，则没有问题。我知道还有其他方法可以散列密码等。我很好奇。我的代码如下:EnterCurrentPassword:EnterNewPassword:ConfirmNewPassword:";$user_id=$_SESSION['user_id'];$pass=$_POST['password'];$s

地穴 php password 34 echo hash salt crypt

php - 如何有效地识别大型数据集中相似但不相同的字符串？

假设我有数千个字符串，我需要从中识别出最常见的组。这是一个示例数据集:http://pastebin.com/XGijjsfE此数据集的前10行代表我要查找的字符串类型。尽管在现实生活中，这些会与其他部分混在一起。一种策略是遍历每个字符串，并使用字符串比较工具将其与其他字符串进行比较，并跟踪高度相似性。下面是一些伪php代码来说明这一点:$line1){foreach($arras$k2=>$line2){if($k1!=$k2){$lev=levenshtein($line1,$line2);if($lev但是在100k行乘以100k行时，这可能非常昂贵。在更大的数据集中识别相似字符

大型 php adipiscing consectetur dolor string-comparison similarity levenshtein-distance