MySQL ngram
简介:本教程向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索。
MySQL ngram全文解析器简介
内置的MySQL全文解析器使用空格确定单词的开头和结尾。当涉及到诸如中文,日文或韩文等的表意语言时,这是一个限制,因为这些语言不使用单词分隔符。 为了解决这个问题,MySQL提供了ngram全文解析器。从版本5.7.6开始,MySQL包含ngram全文解析器作为内置服务器插件,这意味着MySQL在MySQL数据库服务器启动时自动加载此插件。MySQL支持InnoDB和MyISAM存储引擎的ngram全文解析器。 根据定义,ngram是来自文本序列的许多字符的连续序列。ngram全文解析器的主要功能是将一系列文本标记为一个由n个字符组成的连续序列。 下面说明了ngram全文解析器如何为不同的n值标记一系列文本:n = 1: 'm','y','s','q','l' n = 2: 'my', 'ys', 'sq','ql' n = 3: 'mys', 'ysq', 'sql' n = 4: 'mysq', 'ysql' n = 5: 'mysql'
使用ngram解析器创建FULLTEXT索引
要创建一个FULLTEXT
索引,使用NGRAM全文解析器,你加WITH PARSER ngram
的CREATE TABLE
,ALTER TABLE
或CREATE INDEX
声明。
例如,以下语句创建新posts
表,并将title
和body
列添加到FULLTEXT
使用ngram全文解析器的索引。
DROP TABLE IF EXISTS posts; CREATE TABLE posts ( id INT PRIMARY KEY AUTO_INCREMENT, title VARCHAR(255), body TEXT, FULLTEXT ( title , body ) WITH PARSER NGRAM ) ENGINE=INNODB CHARACTER SET UTF8MB4;以下
INSERT
语句在posts
表中插入一个新行:
SET NAMES utf8mb4; INSERT INTO posts(title,body) VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'), ('MySQL教程','学习MySQL快速,简单和有趣');请注意,
SET NAMES
语句设置客户端和服务器将用于发送和接收数据的字符集; 在这种情况下,它是utf8mb4
。
要查看ngram如何标记文本,请使用以下语句:
SET GLOBAL innodb_ft_aux_table="mysqldemo/posts"; SELECT * FROM information_schema.innodb_ft_index_cache ORDER BY doc_id , position;
+--------+--------------+-------------+-----------+--------+----------+ | WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION | +--------+--------------+-------------+-----------+--------+----------+ | my | 2 | 3 | 2 | 2 | 0 | | ys | 2 | 3 | 2 | 2 | 1 | | sq | 2 | 3 | 2 | 2 | 2 | | ql | 2 | 3 | 2 | 2 | 3 | | l全 | 2 | 2 | 1 | 2 | 4 | | 全文 | 2 | 2 | 1 | 2 | 5 | | 文搜 | 2 | 2 | 1 | 2 | 8 | | 搜索 | 2 | 2 | 1 | 2 | 11 | | ql | 2 | 3 | 2 | 2 | 18 | | ys | 2 | 3 | 2 | 2 | 18 | | my | 2 | 3 | 2 | 2 | 18 | | sq | 2 | 3 | 2 | 2 | 18 | | l提 | 2 | 2 | 1 | 2 | 22 | | 提供 | 2 | 2 | 1 | 2 | 23 | | 供了 | 2 | 2 | 1 | 2 | 26 | | 了具 | 2 | 2 | 1 | 2 | 29 | | 具有 | 2 | 2 | 1 | 2 | 32 | | 有许 | 2 | 2 | 1 | 2 | 35 | | 许多 | 2 | 2 | 1 | 2 | 38 | | 多好 | 2 | 2 | 1 | 2 | 41 | | 好的 | 2 | 2 | 1 | 2 | 44 | | 的功 | 2 | 2 | 1 | 2 | 47 | | 功能 | 2 | 2 | 1 | 2 | 50 | | 能的 | 2 | 2 | 1 | 2 | 53 | | 的内 | 2 | 2 | 1 | 2 | 56 | | 内置 | 2 | 2 | 1 | 2 | 59 | | 文搜 | 2 | 2 | 1 | 2 | 60 | | 全文 | 2 | 2 | 1 | 2 | 60 | | 搜索 | 2 | 2 | 1 | 2 | 60 | | 置全 | 2 | 2 | 1 | 2 | 62 | | my | 2 | 3 | 2 | 3 | 0 | | ys | 2 | 3 | 2 | 3 | 1 | | sq | 2 | 3 | 2 | 3 | 2 | | ql | 2 | 3 | 2 | 3 | 3 | | l教 | 3 | 3 | 1 | 3 | 4 | | 教程 | 3 | 3 | 1 | 3 | 5 | | 学习 | 3 | 3 | 1 | 3 | 12 | | 习m | 3 | 3 | 1 | 3 | 15 | | my | 2 | 3 | 2 | 3 | 18 | | sq | 2 | 3 | 2 | 3 | 18 | | ql | 2 | 3 | 2 | 3 | 18 | | ys | 2 | 3 | 2 | 3 | 18 | | l快 | 3 | 3 | 1 | 3 | 22 | | 快速 | 3 | 3 | 1 | 3 | 23 | | 速, | 3 | 3 | 1 | 3 | 26 | | ,简 | 3 | 3 | 1 | 3 | 29 | | 简单 | 3 | 3 | 1 | 3 | 32 | | 单和 | 3 | 3 | 1 | 3 | 35 | | 和有 | 3 | 3 | 1 | 3 | 38 | | 有趣 | 3 | 3 | 1 | 3 | 41 | +--------+--------------+-------------+-----------+--------+----------+ 50 rows in set (0.02 sec)此查询对于故障排除非常有用。例如,如果单词未包含在搜索结果中,则单词可能未被索引,因为它是一个停用词,或者可能是另一个原因。
设置ngram令牌大小
如您所见,前面的示例中,ngram中的令牌大小(n)默认为2.要更改令牌大小,请使用ngram_token_size
配置选项,其值介于1和10之间。
请注意,较小的令牌大小会使较小的全文搜索索引成为可能,因此您可以更快地进行搜索。
因为ngram_token_size
是只读变量,所以您只能使用两个选项设置其值:
首先,在启动字符串中:
mysqld --ngram_token_size=1二,在配置文件中:
[mysqld] ngram_token_size=1
ngram解析器短语搜索
MySQL将短语搜索转换为ngram短语搜索。例如,"abc"
转换为"ab bc"
,返回包含"ab bc"
和的文档"abc"
。
下面的示例显示了搜索短语搜索
中的posts
表:
SELECT id, title, body FROM posts WHERE MATCH (title , body) AGAINST ('搜索' );
+----+-------------------+-------------------------------------------------------------+ | id | title | body | +----+-------------------+-------------------------------------------------------------+ | 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 | +----+-------------------+-------------------------------------------------------------+ 1 row in set (7.74 sec)
用ngram处理搜索结果
自然语言模式
在NATURAL LANGUAGE MODE
搜索中,搜索项将转换为ngram值的并集。假设令牌大小为2或bigram,搜索项mysql
将转换为my
ys
sq
和ql
。
SELECT * FROM posts WHERE MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);
+----+-------------+-------------------------------------+ | id | title | body | +----+-------------+-------------------------------------+ | 2 | MySQL教程 | 学习MySQL快速,简单和有趣 | +----+-------------+-------------------------------------+ 1 row in set (0.01 sec)
布尔模式
在BOOLEAN MODE
搜索中,搜索项将转换为ngram短语搜索。例如:
SELECT * FROM posts WHERE MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);
+----+-------------+-------------------------------------+ | id | title | body | +----+-------------+-------------------------------------+ | 2 | MySQL教程 | 学习MySQL快速,简单和有趣 | +----+-------------+-------------------------------------+ 1 row in set (0.16 sec)
ngram通配符搜索
ngramFULLTEXT
索引只包含ngrams ,因此它不知道术语的开头。执行通配符搜索时,可能会返回意外结果。
以下规则适用于使用ngram FULLTEXT
搜索索引的通配符搜索:
如果通配符中的前缀术语短于ngram令牌大小,则查询将返回包含以前缀术语开头的ngram令牌的所有文档。例如:
SELECT id, title, body FROM posts WHERE MATCH (title , body) AGAINST ('my*' );
+----+-------------------+-------------------------------------------------------------+ | id | title | body | +----+-------------------+-------------------------------------------------------------+ | 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 | | 2 | MySQL教程 | 学习MySQL快速,简单和有趣 | +----+-------------------+-------------------------------------------------------------+ 2 rows in set (4.40 sec)如果通配符中的前缀术语长于ngram令牌大小,MySQL将把前缀术语转换为ngram短语并忽略通配符运算符。请参阅以下示例:
SELECT id, title, body FROM posts WHERE MATCH (title , body) AGAINST ('mysqld*' );
+----+-------------------+-------------------------------------------------------------+ | id | title | body | +----+-------------------+-------------------------------------------------------------+ | 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 | | 2 | MySQL教程 | 学习MySQL快速,简单和有趣 | +----+-------------------+-------------------------------------------------------------+ 2 rows in set (0.01 sec)在这个例子中,术语“
mysqld"
被转换成ngram短语:"my"
"ys"
"sq"
"ql"
"ld"
。因此,将返回包含这些短语之一的所有文档。
添加或修改 ngram 的索引
要向FULLTEXT现有表添加索引,可以使用ALTER TABLE或 CREATE INDEX。ALTER TABLE posts ADD FULLTEXT INDEX ft_index (title,body) WITH PARSER ngram;或者
CREATE FULLTEXT INDEX ft_index ON posts (title,body) WITH PARSER ngram;
处理停用词
ngram解析器排除包含禁用词列表中的停用词的令牌。例如,假设ngram_token_size
为2且文档包含"abc"
。ngram解析器将文档标记为"ab"
和"bc"
。如果"b"
是一个停用词,ngram将排除两者"ab"
,"bc"
因为它们包含"b"
。
请注意,如果语言不是英语,则必须定义自己的禁用词列表。此外,长度大于的停用词将ngram_token_size
被忽略。
在本教程中,您学习了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。