database - MongoDB 文本索引搜索

coder 2023-10-30 原文

我在 mongo db 中创建了一个集合，如下所示

db.articles.insert([
 { _id: 1, subject: "one", author: "abc", views: 50 },
 { _id: 2, subject: "lastone", author: "abc", views: 5 },
 { _id: 3, subject: "firstone", author: "abc", views: 90  },
 { _id: 4, subject: "everyone", author: "abc", views: 100 },
 { _id: 5, subject: "allone", author: "efg", views: 100 },
 { _id: 6, subject: "noone", author: "efg", views: 100 },
 { _id: 7, subject: "nothing", author: "abc", views: 100 }])

之后，我为字段主题和作者提供了文本索引。

db.articles.createIndex(
    {subject: "text",
    author: "text"})

现在我正在尝试在索引字段中搜索带有“one”的单词。当我执行查询时...

db.articles.count({$text: {$search: "\"one\""}})

...结果是 1。

问题是，当我想要单词“one”、“abc”的组合时......

db.articles.count({$text: {$search: "\"one\" \"abc\""}}

... 它给出的结果为 4。包括包含主题名称为“lastone”、“firstone”、“everyone”、“one”的记录作为结果。

所以我的问题是，为什么第一个查询没有获取 4 条记录？我如何编写一个查询来获取 4 条包含单词“one”的记录？

最佳答案

这个命令...

db.articles.count({$text: {$search: "\"one\""}})

... 将对具有确切短语"one" 的文档进行计数。只有一个这样的文档，因此结果是 1。

用值“one”查询应该只返回文档，因为只有一个文档包含“one”或某个以“one”为词干的值。来自 the docs :

For case insensitive and diacritic insensitive text searches, the $text operator matches on the complete stemmed word. So if a document field contains the word blueberry, a search on the term blue will not match. However, blueberry or blueberries will match.

查看您问题中的文档...

one 不是 everyone
one 不是 lastone
one 不是 allone
one 不是 firstone
one 不是 noone

... 所以这些文档都不会与值 one 匹配。

当然，您可以使用多个值进行查询。例如:

docs建议将其计算为 one 或 abc 并正确返回 5:
```
db.articles.count({$text: {$search: "one abc"}})
```
docs建议将其计算为 "abc"AND ("abc"or "one") 并正确返回 5:
```
db.articles.count({$text: {$search: "\"abc\" one"}})
```
docs建议这应该被评估为 "one"AND ("one"or "abc") 但它以某种方式返回 4:
```
db.articles.count({$text: {$search: "\"one\" abc"}})
```

在最后一个示例中，MongoDB 包含主题为“one”、“lastone”、“firstone”、“everyone”的文档，但排除主题为“nothing”的文档。这表明它以某种方式将“one”视为“lastone”、“firstone”和“everyone”的词干，但是在执行 count({$text: {$search: "one"}}) 它返回 1，这清楚地表明 one 不被视为“lastone”、“firstone”和“everyone”的词干。

我怀疑这可能是一个错误，可能值得 raising with MongoDB .

FWIW，您真正想要的可能是部分字符串搜索，在这种情况下 $regex可能有效。以下查询 ...

db.articles.count({ subject: { $regex: /one$/ }, author: { $regex: /abc$/ } })

... 意思是 count where subject like '%one%' and author like '%abc%' 以及返回 4 的文档，即文档其中 subject 是“one”、“lastone”、“firstone”、“allone”、“everyone”、“noone”之一，author 是“abc”。

关于database - MongoDB 文本索引搜索，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49884312/

database MongoDB code 34 one mongodb-query database-administration mongo-shell

有关database - MongoDB 文本索引搜索的更多相关文章

ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby-on-rails - Nokogiri:使用 XPath 搜索 <div> - 2
我使用Nokogiri(Rubygem)css搜索寻找某些在我的html里面。看起来Nokogiri的css搜索不喜欢正则表达式。我想切换到Nokogiri的xpath搜索，因为这似乎支持搜索字符串中的正则表达式。如何在xpath搜索中实现下面提到的(伪)css搜索？require'rubygems'require'nokogiri'value=Nokogiri::HTML.parse(ABBlaCD3"HTML_END#my_blockisgivenmy_bl="1"#my_eqcorrespondstothisregexmy_eq="\/[0-9]+\/"#FIXMEThefoll
ruby-on-rails - 协会的 Rails 索引 - 2
我发现自己需要这个。假设cart是一个包含用户列表的模型。defindex_of_itemcart.users.each_with_indexdo|u,i|ifu==current_userreturniendend获取此类关联索引的更简单方法是什么？最佳答案 indexArray上的方法与您的index_of_item方法相同，例如cart.users.index(current_user)返回数组中第一个对象的索引==给obj。如果未找到匹配项，则返回nil。关于ruby-on-
ruby - 如何搜索有用的 ruby - 2
寻找有用的ruby的好网站是什么？最佳答案 AgileWebDevelopment列出插件(虽然不是rubygems，我不确定为什么)，并允许人们对它们进行评级。RubyToolbox按类别列出gem并比较它们的受欢迎程度。Rubygems有一个搜索框。StackOverflow对最有用的rails插件和rubygems有疑问。关于ruby-如何搜索有用的ruby，我们在StackOverflow上找到一个类似的问题： https://stacko
ruby - 如何搜索、递增和替换 Ruby 字符串中的整数子字符串？ - 2
我有很多这样的文档:foo_1foo_2foo_3bar_1foo_4...我想通过获取foo_[X]的所有实例并将它们中的每一个替换为foo_[X+1]来转换它们。在这个例子中:foo_2foo_3foo_4bar_1foo_5...我可以用gsub和一个block来做到这一点吗？如果不是，最干净的方法是什么？我真的在寻找一个优雅的解决方案，因为我总是可以暴力破解它，但我觉得有一些正则表达式技巧值得学习。最佳答案我(完全)不懂Ruby，但类似这样的东西应该可以工作:"foo_1foo_2".gsub(/(foo_)(\d+)/
ruby - Rails -- :id attribute? 所需的数据库索引 - 2
因此，当我遵循MichaelHartl的RubyonRails教程时，我注意到在用户表中，我们为:email属性添加了一个唯一索引，以提高find的效率方法，因此它不会逐行搜索。到目前为止，我们一直在根据情况使用find_by_email和find_by_id进行搜索。然而，我们从未为:id属性设置索引。:id是否自动索引，因为它在默认情况下是唯一的并且本质上是顺序的？或者情况并非如此，我应该为:id搜索添加索引吗？最佳答案大多数数据库(包括sqlite，这是RoR中的默认数据库)会自动索引主键，对于RailsMigration
ruby-on-rails - rspec - 我怎样才能让 "pendings"有我的文本而不仅仅是 "No reason given" - 2
我有这个代码:context"Visitingtheusers#indexpage."dobefore(:each){visitusers_path}subject{page}pending('iii'){shouldhave_no_css('table#users')}pending{shouldhavecontent('Youhavereachedthispageduetoapermissionic错误')}它会导致几个待处理，例如ManagingUsersGivenapractitionerloggedin.Visitingtheusers#indexpage.#Noreason
ruby - Ruby 中的必应搜索 API - 2
我读了"BingSearchAPI-QuickStart"但我不知道如何在Ruby中发出这个http请求(Weary)如何在Ruby中翻译“Stream_context_create()”？这是什么意思？"BingSearchAPI-QuickStart"我想使用RubySDK，但我发现那些已被弃用前(Rbing)https://github.com/mikedemers/rbing您知道Bing搜索API的最新包装器(仅限Web的结果)吗？最佳答案好吧，经过一个小时的挫折，我想出了一个办法来做到这一点。这段代码很糟糕，因为它是
ruby - 如何为 pbcopy 生成富文本链接 - 2
我一直在玩一个脚本，它在Chrome中获取选定的文本并在Google中查找它，提供四个最佳选择，然后粘贴相关链接。它以不同的格式粘贴，具体取决于当前在Chrome中打开的页面-DokuWiki打开的DokuWiki格式，普通网站的HTML，我想要我的WordPress所见即所得编辑器的富文本。我尝试使用pbpaste-Preferrtf来查看没有其他样式的富文本链接在粘贴板上的样子，但它仍然输出纯文本。在文本编辑中保存文件并进行试验后，我想出了以下内容text=%q|{\rtf1{\field{\*\fldinst{HYPERLINK"URL"}}{\fldrsltTEXT}}}|te
Ruby#index 方法 VS 二进制搜索 - 2
给定一个元素和一个数组，Ruby#index方法返回元素在数组中的位置。我使用二进制搜索实现了我自己的索引方法，期望我的方法会优于内置方法。令我惊讶的是，内置的在实验中的运行速度大约是我的三倍。有Rubyist知道原因吗？最佳答案内置#indexisnotabinarysearch，这只是一个简单的迭代搜索。但是，它是用C而不是Ruby实现的，因此自然可以快几个数量级。关于Ruby#index方法VS二进制搜索，我们在StackOverflow上找到一个类似的问题：

database - MongoDB 文本索引搜索

有关database - MongoDB 文本索引搜索的更多相关文章

随机推荐