1. Classic Tokenizer
classic
tokenizer 是一种基于语法的标记器,适用于英文文档。 该标记器启发式地特殊处理了首字母缩略词、公司名称、电子邮件地址和互联网主机名。 但是,这些规则并不总是起作用,而且除了英文之外,大多数语言中并不能正常工作:
- 它以大多数标点符号分割字词,删除标点符号。 不过,后面没有空格的点被认为是 token 的一部分。
- 它以连字符分隔单词。除非 token 中有一个数字,在这种情况下,整个 token 将被解释为产品编号,并且不分割。
- 它将电子邮件地址和互联网主机名识别为一个词元。
原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-classic-tokenizer.html
译文链接 : http://www.apache.wiki/display/Elasticsearch/Classic+Tokenizer
1.1. 输出示例
POST _analyze
{
"tokenizer": "classic",
"text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
上面的句子会生成如下的词元:
[ The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ]
1.2. 配置
Classic Tokenizer 接受以下参数:
max_token_length 单个 token 的最大长度。如果一个 token 超过这个长度,则以 max_token_length 为间隔分割。默认值是
255
.。
1.3. 配置示例
下面的例子中,我们配置 Classic Tokenizer 的 _**max_token_length**_ 为 5 (便于展示):
PUT my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"type": "classic",
"max_token_length": 5
}
}
}
}
}
POST my_index/_analyze
{
"analyzer": "my_analyzer",
"text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
输出如下:
[ The, 2, QUICK, Brown, Foxes, jumpe, d, over, the, lazy, dog's, bone ]