草庐IT

metaphone

全部标签

c# - super 模糊名称检查?

我正在为内部CRM开发一些东西。公司当前的前端允许大量重复。我试图阻止最终用户输入同一个人,因为他们搜索的是“BillJohnson”而不是“WilliamJohnson”。所以用户会输入一些关于他们的新客户的信息,我们会找到相似的名字(包括模糊的名字)并将它们与我们数据库中已有的内容进行匹配,并询问他们是否意味着那些东西......这样的数据库或技术存在? 最佳答案 我在一个网站上实现了这样的功能。我在PHP中使用double_metaphone()+levenstein()。我为dabatase中的每个条目预先计算了一个doub

php - PHP 中函数 metaphone() 和 soundex() 的实际用法是什么?

Metaphone和Soundex是根据字符串的英文发音对字符串进行索引的语音算法。你用过函数吗metaphone()或soundex()存在于标准PHP库中?为了什么?这些函数在现实生活中有哪些用途? 最佳答案 更一般地说,soundex和变音位可用于查找大声发音时听起来相似的字符串。这可以用于超出您只是试图找到“正确”拼写的情况。例如,它可用于帮助发现错误,例如错误使用拼写正确但发音正确的单词。另一个有吸引力的用途是尝试找到正确的名字。当我告诉别人我的名字是“Nicholas”时,我看到他们经常尝试使用至少两种“替代”拼写:Ni

java - 在 Android 上使用自定义异常词匹配进行语音转文本

我希望能够使用Android的Speech-To-Text引擎来识别句子中的各种不常见的单词。举个例子,“electroencephalograph”这个词来自STT作为“electronicssupplygraph”。当我使用Soundex或Metaphone将所说的内容与硬编码值进行比较时,该值似乎永远不会匹配或随机匹配。如果我使用阈值(例如,Math.abs(str1.compareTo(str2))本质上,我想做的类似于通过背诵引述从引述数据库中查找引述。问题似乎更多地出在Google的Speech-To-Text引擎使用的有限词集中。有什么想法吗?

mysql - 为什么这个 MySQL 双变音位功能不能正常工作?

我刚刚学习Metaphone和DoubleMetaphone搜索算法,我有几个问题。根据MetaphoneWiki页面,我找到了几个带有实现的来源,特别是MySQL实现。我想用我的测试数据库对其进行测试,所以我首先导入了找到的metaphone.sql文件(包含双变音位功能)here现在,我有一张表,国家,在“名称”列中列出了所有国家,例如“阿富汗”、“阿尔巴尼亚”、“Algolia”等。因此,首先,我实际上想在表中创建一个新列来存储每个国家/地区的双音位字符串。我运行了以下代码:UPDATEcountrySETNameDM=dm(name)一切正常。阿富汗的变音位字符串是“AFKNS

mysql - 任何人都可以为我提供一个类似 SOUNDEX 的 SQL 函数,该函数可以正确地用于 INDIAN NAMES 吗?

我需要从我的数据库(mysql)中搜索印度名字。我尝试了SOUNDEX函数,但对于长的印度名称它失败了。 最佳答案 在这种情况下,我建议对MySQL使用双音位算法。DoubleMetaphone旨在处理与来自不同根语言的单词相关的困难。它基于Metaphone,旨在纠正Soundex的一些缺陷。这是DoubleMetaphone站点的链接,您可以在其中了解更多信息,还可以查看包括MySQL在内的多种语言的示例:http://www.atomodo.com/code/double-metaphone

php - 使用 soundex() 或 metaphone() 创建 Mad Gab 风格短语的算法

我正在尝试创建一个算法来建议MadGab风格短语。输入是一组短语。我还有一组关键字,我想尽可能使用它们。目前,我的解决方案只是蛮力:循环遍历短语(逐个字符)如果找到关键字存储关键字和分支(递归)增加字符数但是,我遇到的问题是:考虑复合关键字,例如"catchs"可以是"catches"、"cat"+"cheeses"允许使用字面术语-“the”、“and”、“one”、“two”、“three”。如何建议不是关键字的字词。即当找不到关键字或文字时,求助于系统字典之类的东西。跳过词组。现在它只是通过一次。但请考虑以下情况:短语以不匹配的内容开头,但后面的几个字符包含匹配项。我最熟悉PHP

php - 使用 soundex() 或 metaphone() 创建 Mad Gab 风格短语的算法

我正在尝试创建一个算法来建议MadGab风格短语。输入是一组短语。我还有一组关键字,我想尽可能使用它们。目前,我的解决方案只是蛮力:循环遍历短语(逐个字符)如果找到关键字存储关键字和分支(递归)增加字符数但是,我遇到的问题是:考虑复合关键字,例如"catchs"可以是"catches"、"cat"+"cheeses"允许使用字面术语-“the”、“and”、“one”、“two”、“three”。如何建议不是关键字的字词。即当找不到关键字或文字时,求助于系统字典之类的东西。跳过词组。现在它只是通过一次。但请考虑以下情况:短语以不匹配的内容开头,但后面的几个字符包含匹配项。我最熟悉PHP