草庐IT

levenshtein-distance

全部标签

java - Android 和模糊匹配、n-gram 和 Levenshtein 距离

我正在构建一个Android应用程序,它接受一个字符串输入并使用GoogleAPI返回一个图书排名列表。我正在寻找一种方法来将用户输入的开放式字符串与列表中的第一项进行比较,以查看他们输入的内容是否“可能”是一本书。我有大量关于这本书、书名、作者、描述等的信息,所以我可以在任何部分进行搜索。一个例子是:'eyreaffairfforde','ffordeeyreaffair','theeyreaffair'---->'Likely'tobe'TheEyreAffairbyJasperFforde'解决此问题的最佳方法是什么?我看过levenshtein距离,但认为它不适用于这种开放式输

Python:使用 scikit-learn 的 dbscan 进行字符串聚类,使用 Levenshtein 距离作为度量:

我一直在尝试对多个URL数据集(每个大约100万个)进行聚类,以找出每个URL的原文和拼写错误。我决定使用levenshtein距离作为相似性度量,同时使用dbscan作为聚类算法,因为k-means算法不起作用,因为我不知道聚类的数量。我在使用Scikit-learn的dbscan实现时遇到了一些问题。下面的代码片段适用于我使用的格式的小型数据集,但由于它是预先计算整个距离矩阵,因此需要O(n^2)的空间和时间,这对于我的大型数据集来说太多了。我已经运行了好几个小时,但它最终占用了我电脑的所有内存。lev_similarity=-1*np.array([[distance.leven

ios - iphone 是否有 Levenshtein 距离或类似的实现?

我想获取在iPhone应用程序中输入的字符串,并使用可能是该词正确拼写的字典中的字符串填充表格View。我了解levenshtein距离是执行此操作的方法,但想知道是否有人知道以任何方式在native执行此操作,或者是否有我可以使用的库? 最佳答案 除了评论中引用的实现,还有一个实现here它为您提供了更多的灵active,并且是为64位构建的。 关于ios-iphone是否有Levenshtein距离或类似的实现?,我们在StackOverflow上找到一个类似的问题:

ios - CLBeacon : How can I get the distance from the IBeacons?

如何获取iBeacon的距离?我能够获取它们的proximity,但如何获取与CLBeacon的距离?我使用过EstimoteSDK,它给出了距离值,但我不知道如何使用CLBeacon获取它。-(void)locationManager:(CLLocationManager*)managerdidRangeBeacons:(NSArray*)beaconsinRegion:(CLBeaconRegion*)region{if(self.beaconRegion){if([beaconscount]>0){//getclosesbeaconandfinditsmajorCLBeacon*

hadoop - java.io.IOException : invalid distance too far back in hadoop mapreduce 异常

我在我的一些mapreduce作业中遇到了这个奇怪的错误java.io.IOException:invaliddistancetoofarbackatorg.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(NativeMethod)atorg.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:221)atorg.apache.hadoop.io.compress.DecompressorSt

hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法

我有两个数据集。A{(1,apple),(2,orange),(3,banana)}和B={(1,oracle),(2,ape),(3,naana),(4,orlando),(5,应用程序)(6,横幅)}我有一个udf,它在两个字符串之间给出Levenshtein分数。但是如何计算A中的每个字段与B中的所有字段以获得B中最匹配的字符串。例如,A中“apple”的Levenshtein得分对于app的得分高于B中的ape甲骨文在A中的Levenshtein得分比奥兰多在B中得分更高A中“banana”的Levenshtein得分更多的是naana而不是B中的banner。

php - 为什么 PHP 中的函数 levenshtein 有 255 个字符的限制?

有谁知道为什么函数levenshtein在PHP中有255个字符的限制? 最佳答案 这是函数的PHP完整实现。如您所见,有基于字符串字符长度的嵌套循环:functionlev($s,$t){$m=strlen($s);$n=strlen($t);for($i=0;$ihttps://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#PHPPHP的版本名为levenshtein(),从4.0.1版开始,长度为255个字符。我认为引入限

php - 使用 PHP Levenshtein 比较 5000 个字符串

我在数组中有5000个(有时更多)街道地址字符串。我想将它们与levenshtein进行比较以找到相似的匹配项。如果不遍历所有5000并将它们直接与其他所有4999进行比较,我该如何做到这一点?编辑:如果有人有建议,我也对替代方法感兴趣。总体目标是根据用户提交的街道地址找到相似条目(并消除重复条目)。 最佳答案 我认为对相似地址进行分组的更好方法是:创建一个包含两个表的数据库-一个用于地址(和一个id),一个用于地址中单词或文字数字的发音(使用地址表的外键)大写地址,用空格替换[A-Z]或[0-9]以外的任何内容按空格拆分地址,计算

php - 字符串相似性算法(比 Levenshtein 和 similar_text 更好)? PHP, JS

我在哪里可以找到比levenshtein()和phpsimilar_text()方法更准确地评估错位字符拼写的算法?例子:similar_text('jonas','xxjon',$similar);echo$similar;//returns60similar_text('jonas','asjon',$similar);echo$similar;//returns60/乔纳斯 最佳答案 这是我想出的解决方案。它基于Tim的比较后续字符顺序的建议。一些结果:乔纳斯/乔纳克斯:0.8乔纳斯/舍纳:0.68乔纳斯/乔纳斯:0.66乔纳

android - Nearby API 的 Strategy.DISTANCE _TYPE_ EARSHOT 似乎没有限制消息接近度

我正在使用新的NearbyAPI:https://developers.google.com/nearby/在设备之间的短距离(~5英尺)内发送消息。我已将Strategy距离类型设置为DISTANCE_TYPE_EARSHOT,但我仍然在设备之间的远距离接收消息。无论如何,当设备真正只在听力范围内时,我是否可以进一步限制接近度以接收消息? 最佳答案 我可以在这里回答我自己的问题。我与此API的开发人员交谈过,他告诉我在设备之间建立初始链接后,无论距离多远,它们都会保持连接10分钟。这就是导致上述意外行为的原因。