1. CJK Bigram Token Filter(CJK Bigram词元过滤器)

原文链接 :https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028059

贡献者 : 李亚运ApacheCNApache中文网

1.1. 简述

cjk_bigram过滤器形成了由standard tokenizer或icu_tokenizer生成的CJK术语中的icu_tokenizer(见analysis-icu插件 )。

默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将output_unigrams标志设置为true 。 这可以用于组合的unigram +二进制格式。

hanhiraganakatakanahangul中为字符生成Bigram,但对于具有ignored_scripts参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。

1.2. 示例

{
    "index" : {
        "analysis" : {
            "analyzer" : {
                "han_bigrams" : {
                    "tokenizer" : "standard",
                    "filter" : ["han_bigrams_filter"]
                }
            },
            "filter" : {
                "han_bigrams_filter" : {
                    "type" : "cjk_bigram",
                    "ignored_scripts": [
                        "hiragana",
                        "katakana",
                        "hangul"
                    ],
                    "output_unigrams" : true
                }
            }
        }
    }
}
Copyright © Kilvn 2021. all right reserved,powered by Gitbook最后更新时间: 2021-06-08 20:22:42

results matching ""

    No results matching ""