我在 mongo db 中创建了一个集合,如下所示
db.articles.insert([
{ _id: 1, subject: "one", author: "abc", views: 50 },
{ _id: 2, subject: "lastone", author: "abc", views: 5 },
{ _id: 3, subject: "firstone", author: "abc", views: 90 },
{ _id: 4, subject: "everyone", author: "abc", views: 100 },
{ _id: 5, subject: "allone", author: "efg", views: 100 },
{ _id: 6, subject: "noone", author: "efg", views: 100 },
{ _id: 7, subject: "nothing", author: "abc", views: 100 }])
之后,我为字段主题和作者提供了文本索引。
db.articles.createIndex(
{subject: "text",
author: "text"})
现在我正在尝试在索引字段中搜索带有“one”的单词。当我执行查询时...
db.articles.count({$text: {$search: "\"one\""}})
...结果是 1。
问题是,当我想要单词“one”、“abc”的组合时......
db.articles.count({$text: {$search: "\"one\" \"abc\""}}
... 它给出的结果为 4。包括包含主题名称为“lastone”、“firstone”、“everyone”、“one”的记录作为结果。
所以我的问题是,为什么第一个查询没有获取 4 条记录?我如何编写一个查询来获取 4 条包含单词“one”的记录?
最佳答案
这个命令...
db.articles.count({$text: {$search: "\"one\""}})
... 将对具有确切短语"one" 的文档进行计数。只有一个这样的文档,因此结果是 1。
用值“one”查询应该只返回文档,因为只有一个文档包含“one”或某个以“one”为词干的值。来自 the docs :
For case insensitive and diacritic insensitive text searches, the
$textoperator matches on the complete stemmed word. So if a document field contains the word blueberry, a search on the term blue will not match. However, blueberry or blueberries will match.
查看您问题中的文档...
one 不是 everyoneone 不是 lastoneone 不是 alloneone 不是 firstoneone 不是 noone... 所以这些文档都不会与值 one 匹配。
当然,您可以使用多个值进行查询。例如:
docs建议将其计算为 one 或 abc 并正确返回 5:
db.articles.count({$text: {$search: "one abc"}})
docs建议将其计算为 "abc"AND ("abc"or "one") 并正确返回 5:
db.articles.count({$text: {$search: "\"abc\" one"}})
docs建议这应该被评估为 "one"AND ("one"or "abc") 但它以某种方式返回 4:
db.articles.count({$text: {$search: "\"one\" abc"}})
在最后一个示例中,MongoDB 包含主题为“one”、“lastone”、“firstone”、“everyone”的文档,但排除主题为“nothing”的文档。这表明它以某种方式将“one”视为“lastone”、“firstone”和“everyone”的词干,但是在执行 count({$text: {$search: "one"}}) 它返回 1,这清楚地表明 one 不被视为“lastone”、“firstone”和“everyone”的词干。
我怀疑这可能是一个错误,可能值得 raising with MongoDB .
FWIW,您真正想要的可能是部分字符串搜索,在这种情况下 $regex可能有效。以下查询 ...
db.articles.count({ subject: { $regex: /one$/ }, author: { $regex: /abc$/ } })
... 意思是 count where subject like '%one%' and author like '%abc%' 以及返回 4 的文档,即文档其中 subject 是“one”、“lastone”、“firstone”、“allone”、“everyone”、“noone”之一,author 是“abc”。
关于database - MongoDB 文本索引搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49884312/
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我使用Nokogiri(Rubygem)css搜索寻找某些在我的html里面。看起来Nokogiri的css搜索不喜欢正则表达式。我想切换到Nokogiri的xpath搜索,因为这似乎支持搜索字符串中的正则表达式。如何在xpath搜索中实现下面提到的(伪)css搜索?require'rubygems'require'nokogiri'value=Nokogiri::HTML.parse(ABBlaCD3"HTML_END#my_blockisgivenmy_bl="1"#my_eqcorrespondstothisregexmy_eq="\/[0-9]+\/"#FIXMEThefoll
我发现自己需要这个。假设cart是一个包含用户列表的模型。defindex_of_itemcart.users.each_with_indexdo|u,i|ifu==current_userreturniendend获取此类关联索引的更简单方法是什么? 最佳答案 indexArray上的方法与您的index_of_item方法相同,例如cart.users.index(current_user)返回数组中第一个对象的索引==给obj。如果未找到匹配项,则返回nil。 关于ruby-on-
寻找有用的ruby的好网站是什么? 最佳答案 AgileWebDevelopment列出插件(虽然不是rubygems,我不确定为什么),并允许人们对它们进行评级。RubyToolbox按类别列出gem并比较它们的受欢迎程度。Rubygems有一个搜索框。StackOverflow对最有用的rails插件和rubygems有疑问。 关于ruby-如何搜索有用的ruby,我们在StackOverflow上找到一个类似的问题: https://stacko
我有很多这样的文档:foo_1foo_2foo_3bar_1foo_4...我想通过获取foo_[X]的所有实例并将它们中的每一个替换为foo_[X+1]来转换它们。在这个例子中:foo_2foo_3foo_4bar_1foo_5...我可以用gsub和一个block来做到这一点吗?如果不是,最干净的方法是什么?我真的在寻找一个优雅的解决方案,因为我总是可以暴力破解它,但我觉得有一些正则表达式技巧值得学习。 最佳答案 我(完全)不懂Ruby,但类似这样的东西应该可以工作:"foo_1foo_2".gsub(/(foo_)(\d+)/
因此,当我遵循MichaelHartl的RubyonRails教程时,我注意到在用户表中,我们为:email属性添加了一个唯一索引,以提高find的效率方法,因此它不会逐行搜索。到目前为止,我们一直在根据情况使用find_by_email和find_by_id进行搜索。然而,我们从未为:id属性设置索引。:id是否自动索引,因为它在默认情况下是唯一的并且本质上是顺序的?或者情况并非如此,我应该为:id搜索添加索引吗? 最佳答案 大多数数据库(包括sqlite,这是RoR中的默认数据库)会自动索引主键,对于RailsMigration
我有这个代码:context"Visitingtheusers#indexpage."dobefore(:each){visitusers_path}subject{page}pending('iii'){shouldhave_no_css('table#users')}pending{shouldhavecontent('Youhavereachedthispageduetoapermissionic错误')}它会导致几个待处理,例如ManagingUsersGivenapractitionerloggedin.Visitingtheusers#indexpage.#Noreason
我读了"BingSearchAPI-QuickStart"但我不知道如何在Ruby中发出这个http请求(Weary)如何在Ruby中翻译“Stream_context_create()”?这是什么意思?"BingSearchAPI-QuickStart"我想使用RubySDK,但我发现那些已被弃用前(Rbing)https://github.com/mikedemers/rbing您知道Bing搜索API的最新包装器(仅限Web的结果)吗? 最佳答案 好吧,经过一个小时的挫折,我想出了一个办法来做到这一点。这段代码很糟糕,因为它是
我一直在玩一个脚本,它在Chrome中获取选定的文本并在Google中查找它,提供四个最佳选择,然后粘贴相关链接。它以不同的格式粘贴,具体取决于当前在Chrome中打开的页面-DokuWiki打开的DokuWiki格式,普通网站的HTML,我想要我的WordPress所见即所得编辑器的富文本。我尝试使用pbpaste-Preferrtf来查看没有其他样式的富文本链接在粘贴板上的样子,但它仍然输出纯文本。在文本编辑中保存文件并进行试验后,我想出了以下内容text=%q|{\rtf1{\field{\*\fldinst{HYPERLINK"URL"}}{\fldrsltTEXT}}}|te
给定一个元素和一个数组,Ruby#index方法返回元素在数组中的位置。我使用二进制搜索实现了我自己的索引方法,期望我的方法会优于内置方法。令我惊讶的是,内置的在实验中的运行速度大约是我的三倍。有Rubyist知道原因吗? 最佳答案 内置#indexisnotabinarysearch,这只是一个简单的迭代搜索。但是,它是用C而不是Ruby实现的,因此自然可以快几个数量级。 关于Ruby#index方法VS二进制搜索,我们在StackOverflow上找到一个类似的问题: