IK分词器扩展词停用词

叁歲伎倆 2024-05-05 07:48 168阅读 0赞

系列文章目录


文章目录

  • 系列文章目录
  • 前言

前言

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。
在这里插入图片描述


Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。

在这里插入图片描述

  1. # 进入容器内部
  2. docker exec -it es /bin/bash
  3. # 查看文件
  4. cat /usr/share/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

内容

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
  3. <properties>
  4. <comment>IK Analyzer 扩展配置</comment>
  5. <!--用户可以在这里配置自己的扩展字典 -->
  6. <entry key="ext_dict"></entry>
  7. <!--用户可以在这里配置自己的扩展停止词字典-->
  8. <entry key="ext_stopwords"></entry>
  9. <!--用户可以在这里配置远程扩展字典 -->
  10. <!-- <entry key="remote_ext_dict">words_location</entry> -->
  11. <!--用户可以在这里配置远程扩展停止词字典-->
  12. <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
  13. </properties>

这里需要定制自己的扩展词或者停用词,dic词典一行一个词,非常容易编辑。

问题是如果我是一个刚开始的项目,从哪里来那么多字典,就好像输入法需要安装词库。

我们可以去搜狗输入法官方下载一些词库

https://pinyin.sogou.com/dict/

下载后是一些.scel的文件,用文本是无法编辑的,此时需要一个工具来把他转为可用的词典

深蓝细胞词库scel转txt工具.rar

在这里插入图片描述
转换后安装到自己的插件中。

这是一个通用的做法,如果是你用的solr,也可以这样操作。

发表评论

表情:
评论列表 (有 0 条评论,168人围观)

还没有评论,来说两句吧...

相关阅读