中文词频统计

浅浅的花香味﹌ 2021-12-20 20:39 451阅读 0赞

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773。

  • 1.下载一长篇中文小说。

    本次作业的小说来源于水浒传五十回至五十五回。

  • 2.从文件读取待分析文本。

    1480641-20190318151017051-685424807.png

  • 3.安装并使用jieba进行中文分词。

    1480641-20190318151156024-1306885522.png

    1480641-20190318151332654-379570046.png

  • 更新词库,加入所分析对象的专业词汇。

  • 生成词频统计
  • 排序
  • 排除语法型词汇,代词、冠词、连词等停用词。
  • 输出词频最大TOP20,把结果存放到文件里
  1. # 去除标点符号
  2. fuhao = {
  3. '。','!','?','的','“','”','(',')',' ','》','《',','}
  4. jieba.add_word('宋江')
  5. words = list(jieba.cut(text))
  6. articleDict = {}
  7. articleSet = set(words)-fuhao
  8. for w in articleSet:
  9. if len(w)>1:
  10. articleDict[w] = words.count(w)
  11. articlelist = sorted(articleDict.items(),key = lambda x:x[1], reverse = True)
  12. print(articlelist)
  13. # 对结果输出到text.csv中
  14. import pandas as pd
  15. for i in range(10):
  16. print(articlelist[i])
  17. pd.DataFrame(data=articlelist).to_csv("F:\\xiaoshuo.csv",encoding='utf-8')

1480641-20190318151724478-1789552955.png

  • 生成词云

    1480641-20190318202244011-1922780357.png

转载于:https://www.cnblogs.com/lxcbk/p/10553130.html

发表评论

表情:
评论列表 (有 0 条评论,451人围观)

还没有评论,来说两句吧...

相关阅读

    相关 词频统计之《三国演义》

    描述:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪