Elasticsearch之中文分词器插件es-ik的自定义词库

无所事事1年前CMS插件463

【 ik 自定义词库步骤】
1:创建词典
首先在 ik 插件的 config/custom 目录下创建一个文件 zhouls.dic (当然这个你可以自己命名,如my.dic都行)
在文件中添加词语即可, 每一个词语一行。
-------------------------------------------------------------------------------------------------------------
注意: 这个文件可以在 linux 中直接 vi 生成, 或者在 windows 中创建之后上传到这里。
如果是在 linux 中直接 vi 生成的, 可以直接使用。
如果是在 windows中创建的,需要注意文件的编码必须是 UTF-8 without BOM 格式 【 UTF-8 无
BOM 格式】
-------------------------------------------------------------------------------------------------------------

2: 修改 ik 的配置文件
默认情况下 ik 的配置文件就在 ik 插件的 config 目录下面。【 IKAnalyzer.cfg.xml】
把刚才创建的文件的位置添加到 ik 的配置文件中即可。

vi config/IKAnalyzer.cfg.xml
<properties>
  <comment>IK Analyzer 扩展配置</comment>
  <!--用户可以在这里配置自己的扩展字典 -->
  <entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic;custom/zhouls.dic</entry>
  <!--用户可以在这里配置自己的扩展停止词字典-->
  <entry key="ext_stopwords">custom/ext_stopword.dic</entry>
  <!--用户可以在这里配置远程扩展字典 -->
  <!-- <entry key="remote_ext_dict">words_location</entry> -->
  <!--用户可以在这里配置远程扩展停止词字典-->
  <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

------------------------------------------------------------------------------------------------------------------------------

ext_dict是住词库,ext_stopword是停用词库(把一些错误的分词加入进来,之后不会再被分词了);custom目录中是我们的自定义词库。 这些词库都是本地词库。可以参考配置文档来设置。

------------------------------------------------------------------------------------------------------------------------------
注意: 需要把 my.dic 文件的位置添加到 key=ext_dict 这个 entry 中, 切记不要随意新增 entry,随意新增的 entry 是不被识别的。并且 entry 的名称也不能乱改, 否则也不会识别。
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic;custom/my.dic</entry>
------------------------------------------------------------------------------------------------------------------------------

3: 重启 es 验证分词效果

相关文章

elasticsearch 开机自启动——/etc/init.d

开机自启动,就是在系统启动后,自行启动elasticsearch,无需手动启动。一、查看已存在的开机启动项[root@qf01 ~]# chkconfig --list显...

Elasticsearch配置IK分词器的远程词库

Elasticsearch配置IK分词器的远程词库

我们把es和ik分词器安装完毕后,即可开始配置词库,在es中默认有提供一些词库,过滤一些语气词等;在安装的es的根路径下有一个\plugins\ik\config路径,下面有一个IKAnalyzer....

ElasticSearch搜索建议与上下文提示

ElasticSearch搜索建议与上下文提示

搜索建议通过Suggester Api实现原理是将输入的文本分解为Token,然后在词典中查找类似的Term返回根据不同场景,ElasticSearch设计了4中类别的Suggesters。Term...

elasticsearch中使用curl进行的简单查询

curl:-X :指定http的请求方式,有HEAD、GET、POST、PUT、DELETE-d :指定要传输的数据-H :指定http的请求头信息curl -XPUT http://ip:port/...

帝国CMS7.5基于es(Elasticsearch)7.x的全文搜索插件

帝国CMS7.5基于es(Elasticsearch)7.x的全文搜索插件

一、插件演示地址后台演示地址:https://ecms.gxecms.cf/e/admin/index.php用户名:demo密码:demo前台演示页面:https://ecms.gxecms.cf/...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。