我有一个城市列表,其中有许多同一个城市的拼写错误。一个城市被拼错18次!我正在尝试清理它,但它需要几个小时。是否有某种算法可以“猜测”这些拼写错误的城市名称中的每一个的有效城市名称?某种形式的加权?数据在 MySQL 中,我也有一个正确拼写的表格可以进行比较。
对此有什么想法吗?如果可能,一个 PHP 示例会有所帮助。
最佳答案
您可以使用 damerau-levenstein 函数来获取两个字符串之间的字符串距离。 (这也检查换位)
http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
如果您的表很大,那么您可能需要稍微优化一下算法,以便在字符串距离超过阈值时中断。
此外,如果您可以假设城市的第一个字母输入正确,那么应该减少比较次数。
它不是 PHP,但如果它有任何帮助,我写了一个 java 版本:
class LevinshteinDistance{
public static void main(String args[]){
if(args.length != 2){
System.out.println("Displays the Levenshtein distance between 2 strings");
System.out.println("Usage: LevenshteinDistance stringA stringB");
}else{
int distance = getLevenshteinDistance(args[0], args[1]);
System.out.print(getLevenshteinMatrix(args[0], args[1]));
System.out.println("Distance: "+distance);
}
}
/**
* @param a first string for comparison
* @param b second string for comparison
* @param caseSensitive whether or not to use case sensitive matching
* @return a levenshtein string distance
*/
public static int getLevenshteinDistance(String a, String b, boolean caseSensitive){
if(! caseSensitive){
a = a.toUpperCase();
b = b.toUpperCase();
}
int[][] matrix = generateLevenshteinMatrix(a, b);
return matrix[a.length()][b.length()];
}
/**
* @param a first string for comparison
* @param b second string for comparison
* @return a case sensitive levenshtein string distance
*/
public static int getLevenshteinDistance(String a, String b){
int[][] matrix = generateLevenshteinMatrix(a, b);
return matrix[a.length()][b.length()];
}
/**
* @param a first string for comparison
* @param b second string for comparison
* @return a case sensitive string representation of the search matrix
*/
public static String getLevenshteinMatrix(String a, String b){
int[][] matrix = generateLevenshteinMatrix(a, b);
StringBuilder result = new StringBuilder();
final int ROWS = a.length()+1;
final int COLS = b.length()+1;
result.append(rowSeperator(COLS-1, false));
result.append("| "+b+" |\n");
result.append(rowSeperator(COLS-1, true));
for(int r=0; r<ROWS; r++){
result.append('|');
if(r > 0){
result.append(a.charAt(r-1));
}else{
result.append(' ');
}
result.append(" |");
for(int c=0; c<COLS; c++){
result.append(matrix[r][c]);
}
result.append(" |\n");
}
result.append(rowSeperator(COLS-1, false));
return result.toString();
}
private static String rowSeperator(final int LEN, boolean hasGap){
StringBuilder result = new StringBuilder();
if(hasGap){
result.append("+ +-");
}else{
result.append("+----");
}
for(int i=0; i<LEN; i++)
result.append('-');
result.append("-+\n");
return result.toString();
}
private static int[][] generateLevenshteinMatrix(String a, String b){
final int ROWS = a.length()+1;
final int COLS = b.length()+1;
int matrix[][] = new int[ROWS][COLS];
for(int r=0; r<ROWS; r++){
matrix[r][0]=r;
}
for(int c=0; c<COLS; c++){
matrix[0][c]=c;
}
for(int r=1; r<ROWS; r++){
char cA = a.charAt(r-1);
for(int c=1; c<COLS; c++){
char cB = b.charAt(c-1);
int cost = (cA == cB)?0:1;
int deletion = matrix[r-1][c]+1;
int insertion = matrix[r][c-1]+1;
int substitution = matrix[r-1][c-1]+cost;
int minimum = Math.min(Math.min(deletion, insertion), substitution);
if( (r > 1 && c > 1) && a.charAt(r-2) == cB && cA == b.charAt(c-2) ){
int transposition = matrix[r-2][c-2]+cost;
minimum = Math.min(minimum, transposition);
}
matrix[r][c] = minimum;
}
}
return matrix;
}
}
关于php - 找到最接近拼写错误的城市名称的匹配项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3515235/
大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
在我的应用程序中,我需要能够找到所有数字子字符串,然后扫描每个子字符串,找到第一个匹配范围(例如5到15之间)的子字符串,并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串,例如,re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项,并且只替换第N个匹配项,我该怎么做?例如,如果我想替换第三个匹配项“10”(匹配项[2]),我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg
如何匹配未被反斜杠转义的平衡定界符对(其本身未被反斜杠转义)(无需考虑嵌套)?例如对于反引号,我试过了,但是转义的反引号没有像转义那样工作。regex=/(?!$1:"how\\"#expected"how\\`are"上面的正则表达式不考虑由反斜杠转义并位于反引号前面的反斜杠,但我愿意考虑。StackOverflow如何做到这一点?这样做的目的并不复杂。我有文档文本,其中包括内联代码的反引号,就像StackOverflow一样,我想在HTML文件中显示它,内联代码用一些spanMaterial装饰。不会有嵌套,但转义反引号或转义反斜杠可能出现在任何地方。
我遵循MichaelHartl的“RubyonRails教程:学习Web开发”,并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符,电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时,所有测试都通过了,但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test
我是rails的新手,想在form字段上应用验证。myviewsnew.html.erb.....模拟.rbclassSimulation{:in=>1..25,:message=>'Therowmustbebetween1and25'}end模拟Controller.rbclassSimulationsController我想检查模型类中row字段的整数范围,如果不在范围内则返回错误信息。我可以检查上面代码的范围,但无法返回错误消息提前致谢 最佳答案 关键是您使用的是模型表单,一种显示ActiveRecord模型实例属性的表单。c
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常,除了该文件不是公开可用的,而且我无法获得它的公共(public)URL。但是当我登录到S3时,我可以正常查看我的文件。为了使其公开可用,我将最后一行更改为obj.upload_file(file
我克隆了一个rails仓库,我现在正尝试捆绑安装背景:OSXElCapitanruby2.2.3p173(2015-08-18修订版51636)[x86_64-darwin15]rails-v在您的Gemfile中列出的或native可用的任何gem源中找不到gem'pg(>=0)ruby'。运行bundleinstall以安装缺少的gem。bundleinstallFetchinggemmetadatafromhttps://rubygems.org/............Fetchingversionmetadatafromhttps://rubygems.org/...Fe
在Cooper的书BeginningRuby中,第166页有一个我无法重现的示例。classSongincludeComparableattr_accessor:lengthdef(other)@lengthother.lengthenddefinitialize(song_name,length)@song_name=song_name@length=lengthendenda=Song.new('Rockaroundtheclock',143)b=Song.new('BohemianRhapsody',544)c=Song.new('MinuteWaltz',60)a.betwee
我是Google云的新手,我正在尝试对其进行首次部署。我的第一个部署是RubyonRails项目。我基本上是在关注thisguideinthegoogleclouddocumentation.唯一的区别是我使用的是我自己的项目,而不是他们提供的“helloworld”项目。这是我的app.yaml文件runtime:customvm:trueentrypoint:bundleexecrackup-p8080-Eproductionconfig.ruresources:cpu:0.5memory_gb:1.3disk_size_gb:10当我转到我的项目目录并运行gcloudprevie
我有一个驼峰式字符串,例如:JustAString。我想按照以下规则形成长度为4的字符串:抓取所有大写字母;如果超过4个大写字母,只保留前4个;如果少于4个大写字母,则将最后大写字母后的字母大写并添加字母,直到长度变为4。以下是可能发生的3种情况:ThisIsMyString将产生TIMS(大写字母);ThisIsOneVeryLongString将产生TIOV(前4个大写字母);MyString将生成MSTR(大写字母+tr大写)。我设法用这个片段解决了前两种情况:str.scan(/[A-Z]/).first(4).join但是,我不太确定如何最好地修改上面的代码片段以处理最后一种