SQL Server中的全文搜索

Lion Long 2023-07-11 原文

SQL Server中的全文搜索

一、概述

全文索引在表中包括一个或多个基于字符的列。这些列可以具有以下任何数据类型：char、varchar、nchar、nvarchar、text、ntext、image、xml 或 varbinary（max）和 FILESTREAM。每个全文索引为表中的一列或多列编制索引，并且每列可以使用特定的语言。

全文查询通过基于特定语言（如英语或中文）的规则对单词和短语进行操作，对全文索引中的文本数据执行语言搜索。全文查询可以包括简单的字词和短语，也可以包括字词或短语的多种形式。全文查询返回至少包含一个匹配项（也称为匹配项）的任何文档。当目标文档包含全文查询中指定的所有术语，并满足任何其他搜索条件（如匹配术语之间的距离）时，将发生匹配。

二、全文搜索查询

将列添加到全文索引后，用户和应用程序可以对列中的文本运行全文查询。这些查询可以搜索以下任何内容：

一个或多个特定单词或短语（简单术语)。
单词或短语，其中单词以指定文本（前缀术语）开头)。
特定单词的屈折形式（世代术语）)。
接近另一个单词或短语的单词或短语（邻近术语）)。
特定单词的同义词形式（同义词库)。
使用加权值的字词或短语（加权术语)。

全文查询不区分大小写。例如，搜索"Aluminum" 或 "aluminum"将返回相同的结果。

全文查询使用一小组 Transact-SQL 谓词 ( and ) 和函数 ( and ) 。但是，给定业务方案的搜索目标会影响全文查询的结构。例如：CONTAINS FREETEXT CONTAINSTABLE FREETEXTTABLE
（1）电子商务-在网站上搜索产品：

SELECT product_id FROM products   
WHERE CONTAINS(product_description, '"Snap Happy 100EZ"' OR FORMSOF(THESAURUS,'"Snap Happy"') OR '100EZ')   
AND product_cost < 200 ;

（2）招聘方案 - 搜索具有使用 SQL Server 经验的求职者：

SELECT candidate_name,SSN FROM candidates   
WHERE CONTAINS(candidate_resume, '"SQL Server"') AND candidate_division = 'DBA';

三、将全文搜索查询与 LIKE 谓词进行比较

与全文搜索相比，LIKE Transact-SQL 谓词仅适用于字符模式。此外，不能使用 LIKE 谓词查询格式化的二进制数据。此外，针对大量非结构化文本数据的 LIKE 查询比针对相同数据的等效全文查询慢得多。针对数百万行文本数据的 LIKE 查询可能需要几分钟才能返回；而全文查询对相同数据可能只需要几秒钟或更短的时间，具体取决于返回的行数。

四、全文搜索体系结构

全文搜索体系结构由以下过程组成：

SQL Server 进程（sqlservr.exe）。
筛选器守护程序主机进程（fdhost.exe）。

出于安全原因，过滤器由称为过滤器守护程序主机的单独进程加载。fdhost.exe进程由 FDHOST 启动器服务（MSSQLFDLauncher）创建，它们在 FDHOST 启动器服务帐户的安全凭据下运行。因此，FDHOST 启动器服务必须运行才能使全文索引和全文查询正常工作。

这两个过程包含全文搜索体系结构的组件。下图总结了这些组件及其关系。这些组件在图示后进行了描述。

4.1、SQL Server 进程

SQL Server 进程使用以下组件进行全文搜索：

用户表。这些表包含要进行全文索引的数据。
全文收集器。全文收集器使用全文爬网线程。它负责计划和驱动全文索引的填充，还负责监视全文目录。
同义词库文件。这些文件包含搜索词的同义词。有关详细信息，请参阅配置和管理全文搜索的同义词库文件。
非索引字表对象。非索引字表对象包含对搜索无用的常用词的列表。有关详细信息，请参阅配置和管理全文搜索的非索引字和非索引字表。
SQL Server 查询处理器。查询处理器编译并执行 SQL 查询。如果 SQL 查询包含全文搜索查询，则在编译和执行期间，该查询将发送到全文引擎。查询结果与全文索引匹配。
全文引擎。SQL Server 中的全文引擎与查询处理器完全集成。全文引擎编译并执行全文查询。作为查询执行的一部分，全文引擎可能会从同义词库和非索引字表接收输入。
索引编写器（索引器）。索引编写器生成用于存储索引令牌的结构。
筛选器守护程序管理器。筛选器守护程序管理器负责监视全文引擎筛选器守护程序主机的状态。

4.2、过滤器守护程序主机进程

筛选器守护程序主机是由全文引擎启动的进程。它运行以下全文搜索组件，这些组件负责访问、筛选和分词表数据，以及分词和对查询输入进行词干提取。

筛选器守护程序主机的组件如下所示：

协议处理程序。此组件从内存中提取数据以进行进一步处理，并从指定数据库中的用户表中访问数据。它的职责之一是从全文索引的列中收集数据，并将其传递给筛选器守护程序主机，该主机将根据需要应用筛选和分词系统。
过滤器。某些数据类型需要筛选，然后才能对文档中的数据进行全文索引，包括变量、变量二元（最大值）、图像或 xml 列中的数据。用于给定文档的筛选器取决于其文档类型。例如，不同的筛选器用于 Microsoft Word （.doc）文档、Microsoft Excel （.xls）文档和 XML （.xml）文档。然后，筛选器从文档中提取文本块，删除嵌入的格式并保留文本，并可能保留有关文本位置的信息。结果是文本信息流。有关详细信息，请参阅配置和管理搜索筛选器。
分词系统和词干分析器。分词系统是特定于语言的组件，它根据给定语言的词法规则（断词）查找单词边界。每个分词系统都与特定于语言的词干分析器组件相关联，该组件共轭动词并执行屈折扩展。在编制索引时，筛选器守护程序宿主使用分词系统和词干分析器对给定表列中的文本数据执行语言分析。与全文索引中的表列关联的语言确定用于为列编制索引的分词系统和词干分析器。

五、全文搜索处理

全文搜索由全文引擎提供支持。全文引擎有两个角色：索引支持和查询支持。

5.1、全文索引过程

启动全文填充（也称为爬网）时，全文引擎会将大量数据推送到内存中，并通知筛选器守护程序主机。主机过滤和单词分解数据，并将转换后的数据转换为倒置单词列表。然后，全文搜索从单词列表中提取转换后的数据，处理数据以删除非索引字，并将批处理的单词列表保存到一个或多个倒排索引中。

对存储在 varbinary（max）或图像列中的数据编制索引时，实现 IFilter 接口的筛选器会根据该数据的指定文件格式（例如 Microsoft Word）提取文本。在某些情况下，过滤器组件需要将变量（max）或图像数据写出到filterdata文件夹，而不是推送到内存中。

作为处理的一部分，收集的文本数据通过分词系统传递，以将文本分隔为单独的标记或关键字。用于标记化的语言在列级别指定，也可以通过过滤器组件在 varbinary（max）、图像或 xml 数据中标识。

可以执行其他处理以删除非索引字，并在标记存储在全文索引或索引片段中之前对其进行规范化。

填充完成后，将触发最终合并过程，将索引片段合并到一个主全文索引中。这提高了查询性能，因为只需要查询主索引而不是多个索引片段，并且可以使用更好的评分统计信息进行相关性排名。

5.2、全文查询流程

查询处理器将查询的全文部分传递给全文引擎进行处理。全文引擎执行断词和（可选）同义词库扩展、词干提取和非索引字（干扰词）处理。然后，查询的全文部分以 SQL 运算符的形式表示，主要表示为流式表值函数（STVF）。在查询执行期间，这些 STVF 访问倒排索引以检索正确的结果。此时，结果要么返回到客户端，要么在返回到客户端之前进一步处理。

六、全文索引体系结构

全文引擎使用全文索引中的信息来编译全文查询，这些查询可以快速在表中搜索特定单词或单词组合。全文索引存储有关重要单词及其在数据库表的一列或多列中的位置的信息。全文索引是一种特殊类型的基于令牌的功能索引，由 SQL Server 全文引擎生成和维护。构建全文索引的过程不同于构建其他类型的索引。全文引擎不是基于存储在特定行中的值构造 B 树结构，而是基于要编制索引的文本中的单个标记构建倒置、堆叠、压缩的索引结构。全文索引的大小仅受运行 SQL Server 实例的计算机的可用内存资源的限制。

从 SQL Server 2008 （10.0.x）开始，全文索引与数据库引擎集成，而不是像以前版本的 SQL Server 那样驻留在文件系统中。对于新数据库，全文目录现在是不属于任何文件组的虚拟对象;它只是一个逻辑概念，指的是一组全文索引。

每个表只允许有一个全文索引。若要在表上创建全文索引，该表必须具有单个唯一的非空列。可以在 char、varchar、nchar、nvarchar、nvarchar、text、ntext、image、xml、varbinary 和 varbinary（max）类型的列上构建全文索引，以便为全文搜索编制索引。在数据类型为变量、变量二进制（max）、图像或 xml 的列上创建全文索引需要指定类型列。类型列是表格列，您可以在其中将文档的文件扩展名（.doc、.pdf、.xls等）存储在每行中。

6.1、全文索引结构

充分了解全文索引的结构将有助于您了解全文引擎的工作原理。例如：

标识	标题
1	曲柄臂和轮胎保养
2	前反射器支架和反射器组件 3
3	前反射器支架安装

下表显示了片段 1，描述了在“文档”表的“标题”列上创建的全文索引的内容。全文索引包含的信息比此表中显示的信息要多。该表是全文索引的逻辑表示形式，仅用于演示目的。这些行以压缩格式存储，以优化磁盘使用情况。

请注意，数据已从原始文档反转。发生反转是因为关键字映射到文档 ID。因此，全文索引通常称为倒排索引。

另请注意，关键字“and”已从全文索引中删除。这样做是因为“and”是非索引字，从全文索引中删除非索引字可以节省大量磁盘空间，从而提高查询性能。

片段一：

“关键字”列包含在编制索引时提取的单个标记的表示形式。分词系统确定令牌的组成。

6.2、全文索引片段

逻辑全文索引通常拆分为多个内部表。每个内部表称为全文索引片段。其中一些片段可能包含比其他片段更新的数据。例如，如果用户更新标识为 3 的以下行，并且表是自动更改跟踪的，则会创建一个新片段。

文档标识	标题
3	后反射器

一下的片段 2，与片段 3 相比，片段包含有关标识 1 的更新数据。因此，当用户查询“后反射器”时，片段 2 中的数据将用于标识3。每个片段都标有创建时间戳，可以使用sys.fulltext_index_fragments目录视图查询该时间戳。

片段 2：

关键词	结肠	标识	交流
后	1	3	1
反射镜	1	3	2

从片段 2 可以看出，全文查询需要在内部查询每个片段并丢弃较旧的条目。因此，全文索引中的全文索引片段过多可能会导致查询性能大幅下降。若要减少片段数，请使用“更改全文目录 Transact-SQL”语句的“重新组织”选项重新组织全文目录。此语句执行主合并，这会将片段合并为一个较大的片段，并从全文索引中删除所有过时的条目。

重新组织后，示例索引将包含以下行：

6.3、全文索引和常规 SQL Server 索引之间的差异

全文索引	常规 SQL Server 索引
每个表只允许有一个全文索引。	每个表允许多个常规索引。
可以通过计划或特定请求向全文索引添加数据（称为填充），也可以通过添加新数据自动进行。	在插入、更新或删除它们所基于的数据时自动更新。
在同一数据库中分组到一个或多个全文目录中。	未分组。

总结

SQL Server的全文引擎驻留在 SQL Server 进程中，而不是驻留在单独的服务中。将全文引擎集成到数据库引擎中提高了全文可管理性、混合查询的优化和整体性能。

全文搜索支持近 50 种不同的语言，例如英语、西班牙语、中文、日语、阿拉伯语、孟加拉语和印地语。

全文 Server xff xff0c 数据库 sql sqlserver 全文检索全文索引

有关SQL Server中的全文搜索的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby-on-rails - active_admin 目录中的常量警告重新声明 - 2
我正在使用active_admin，我在Rails3应用程序的应用程序中有一个目录管理，其中包含模型和页面的声明。时不时地我也有一个类，当那个类有一个常量时，就像这样:classFooBAR="bar"end然后，我在每个必须在我的Rails应用程序中重新加载一些代码的请求中收到此警告:/Users/pupeno/helloworld/app/admin/billing.rb:12:warning:alreadyinitializedconstantBAR知道发生了什么以及如何避免这些警告吗？最佳答案在纯Ruby中:classA

SQL Server中的全文搜索