NLP 使用jieba分词

男娘i 2023-07-20 13:31 142阅读 0赞

相比于机械法分词法,jieba联系上下文的分词效果更好。
同时使用HMM模型对词组的分类更加准确。

测试对如下文本的分词效果

南门街前段时间经过整改劝阻摆摊占道的情况改善了很多,但是情况好了几天又慢慢的和以前一样了,只要有人带头
后面慢慢又摆出来,很多商户现在干脆用钩子把一些货物挂门口屋檐下的电线上,上有政策下就有对策,城管来检查就稍微好点,城管一走又摆出来又是老样子,希望有关部门采取强硬点的措施,每次都不痛不痒的整治一下根本起不到什么效果。现在二小门口那条路也成了马路市场了,卖小菜.卖鱼的.卖水果的成堆了。

  1. import jieba
  2. # 测试jieba分词
  3. str = "南门街前段时间经过整改劝阻摆摊占道的情况改善了很多,但是情况好了几天又慢慢的和以前一样了,只要有人带头 " \
  4. "后面慢慢又摆出来,很多商户现在干脆用钩子把一些货物挂门口屋檐下的电线上,上有政策下就有对策,城管来检查就稍微" \
  5. "好点,城管一走又摆出来又是老样子,希望有关部门采取强硬点的措施,每次都不痛不痒的整治一下根本起不到什么效果。现在二小门口那条路也成了马路市场了,卖小菜.卖鱼的.卖水果的成堆了。 "
  6. # 不使用全切割 使用隐马模型
  7. res = jieba.lcut(str, cut_all=False, HMM=True)
  8. print(str)
  9. print(res)

在这里插入图片描述
对于专有名词jieba不可避免的出现了错误的分词情况。我们可以手动将部分专有名词使用utf-8编码的txt导入到jieba

  • 我们将好了几天 那条路 南门街加入到jieba

    添加词组

    jieba.add_word(‘南门街’)

    批量添加

    jieba.load_userdict(‘word_jieba.txt’)

再来看一下效果:
在这里插入图片描述

发表评论

表情:
评论列表 (有 0 条评论,142人围观)

还没有评论,来说两句吧...

相关阅读

    相关 分词使用 jieba 、IKAnalyzer

    场景:表中因早起原因分别创建两套部门表。概述登录人为A/B不同类型,可选的部门范围不同。 但是后来发现B类人员可选A类中部门,故对于B来说 部门取并集! 问题:相同名称或类

    相关 NLP 使用jieba分词

    相比于机械法分词法,jieba联系上下文的分词效果更好。 同时使用HMM模型对词组的分类更加准确。 测试对如下文本的分词效果 > 南门街前段时间经过整改劝阻摆摊占道的情

    相关 jieba分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese te

    相关 jieba分词

    参考文章:[Github上的项目———jieba][Github_jieba] 中文分词 对于NLP(自然语言处理)来说,分词是一步重要的工作,市面上也有各种分词库,[