1. Fingerprint Token Filter(指纹过滤器)

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-fingerprint-tokenfilter.html

译文链接 :http://www.apache.wiki/pages/viewpage.action?pageId=10028829

贡献者 : 李亚运ApacheCNApache中文网

1.1. 简述

fingerprint过滤器发出单个token,该token对于指纹身份的文本和/或提供可以被聚类的token是有用的。 它通过排序token,重复数据删除,然后将它们连接回单个token来实现。

1.2. 示例

如文本:["the", "quick", "quick", "brown", "fox", "was", "very", "brown"],将会被转化为单个token: "brown fox quick the very was",注意token是按字母顺序排列的,并且只有一个"quick"

1.3. 参数

设置 描述
separator 默认为空格。
max_output_size 默认为255

1.4. 最大token大小

因为一个字段可能有许多独特的token,所以重要的是设置一个阈值,使得字段不会变得太大。 max_output_size设置控制此行为。 如果连接的指纹增长大于max_output_size ,则过滤器将退出并且不会发出token(例如,该字段将为空)。

Copyright © Kilvn 2021. all right reserved,powered by Gitbook最后更新时间: 2021-06-08 20:22:42

results matching ""

    No results matching ""