IK分词器扩展词停用词
系列文章目录
文章目录
- 系列文章目录
- 前言
前言
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。
Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。
# 进入容器内部
docker exec -it es /bin/bash
# 查看文件
cat /usr/share/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml
内容
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict"></entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords"></entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
这里需要定制自己的扩展词或者停用词,dic词典一行一个词,非常容易编辑。
问题是如果我是一个刚开始的项目,从哪里来那么多字典,就好像输入法需要安装词库。
我们可以去搜狗输入法官方下载一些词库
https://pinyin.sogou.com/dict/
下载后是一些.scel的文件,用文本是无法编辑的,此时需要一个工具来把他转为可用的词典
深蓝细胞词库scel转txt工具.rar
转换后安装到自己的插件中。
这是一个通用的做法,如果是你用的solr,也可以这样操作。
还没有评论,来说两句吧...