1. Thai Tokenizer(泰语分词器)

thai tokenizer(泰语分词器) 将泰文文本分成单词,使用的是 java 的泰语分割算法。文本中的其他语言按照 standard tokenizer 处理。

注意

不是所有的 JRE 都支持这个分词器,目前已知在 Sun/Oracle 和 OpenJDK 运行正常。 如果您的应用程序需要完全可移植,可考虑使用 ICU Tokenizer 来代替。

原文链接 : https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-thai-tokenizer.html

译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=10028882

贡献者 : 陈益雷ApacheCNApache中文网

1.1. 输出示例

POST _analyze
{
  "tokenizer": "thai",
  "text": "การที่ได้ต้องแสดงว่างานดี"
}

上面的句子会生成如下的词元:

[ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ]

1.2. 配置

thai tokenizer(泰语分词器)不支持配置。

Copyright © Kilvn 2021. all right reserved,powered by Gitbook最后更新时间: 2021-06-08 20:22:42

results matching ""

    No results matching ""